为什么字节集无法转换成文本？

BYWMnn9QFz59L6 发表于 2022-8-28 15:18:29

本帖最后由 BYWMnn9QFz59L6 于 2022-8-28 15:35 编辑

https://www.zhhbqg.com/1_1915/
https://www.xbooktxt.net/34_34398/今天在写一个解析HTML的工具时，发现有的网站访问取不到源代码，分析了一下发现字节集可以获取到，但是没有办法转换成文本

我试了一下上面这两种网站都有这样的问题，通过无名网络访问模块访问得到了字节集，但是有时候转换成文本会失败
这两个站点都是GBK编码的，字节集也已经获取到了，但是转换就会失败，也没有报错信息不知道是哪里的问题
这种情况也不是每次都会发生，有小概率的情况下是可以解析出来内容的，但是大部分时间都解析不出来，其他就没发现什么规律了

但是每次用抓包工具就能抓到结果，这让我很纳闷

我已经测试过了肯定不是请求头的问题，我加了和抓包工具一样的请求头还是同样的结果

BYWMnn9QFz59L6 发表于 2022-8-28 15:27:01

又测试了一下，同样的代码，同样的网站，我不知道为什么有时候有结果有时候就死活转换不出来

BYWMnn9QFz59L6 发表于 2022-8-28 15:28:38

这是我的代码，有没有有经验的朋友帮忙看一下是什么出了问题，指点一下，谢谢了！

创世魂 发表于 2022-8-28 16:52:15

网页编码是gbk的需要用多字节到文本方法

网页编码是utf8的使用 utf8到文本方法。。

你发的这两个网站都是gbk的网页用多字节到文本

BYWMnn9QFz59L6 发表于 2022-8-28 19:07:13

创世魂发表于 2022-8-28 16:52
网页编码是gbk的需要用多字节到文本方法

网页编码是utf8的使用 utf8到文本方法。。

:'(我第三张图里用的是多字节到文本的，但是有时候就是请求不出来，但用浏览器和抓包软件就能每次都请求出来

server 发表于 2022-8-28 19:38:46

敢不敢把你获取的数据事先保存到文件，自己用眼先看看是什么个东西。
看清楚了，是否因为你访问协议头的问题，导致了，你获取的原始网页数据，就是几个GZIP 包呢？？？？

BYWMnn9QFz59L6 发表于 2022-8-28 20:44:12

server 发表于 2022-8-28 19:38
敢不敢把你获取的数据事先保存到文件，自己用眼先看看是什么个东西。
看清楚了，是否因为你访问协议头的 ...

明白了！！！
感谢大哥指点迷津，受益匪浅，感激不尽！！！

server 发表于 2022-8-28 21:18:29

创世魂发表于 2022-8-28 16:52
网页编码是gbk的需要用多字节到文本方法

网页编码是utf8的使用 utf8到文本方法。。

个别网页服务器，比较恶心，就拿抖音快手来讲，你直接访问得到的就是个gzip网页数据包。除非你加上正确协议头。才能得到明文网页数据。

页: [1]

递归火山软件开发平台's Archiver

为什么字节集无法转换成文本？