递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库
查看: 4669|回复: 7
打印 上一主题 下一主题

[视窗] 为什么字节集无法转换成文本?

[复制链接]

4

主题

63

帖子

253

积分

中级会员

Rank: 3Rank: 3

积分
253
跳转到指定楼层
楼主
发表于 2022-8-28 15:18:29 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 BYWMnn9QFz59L6 于 2022-8-28 15:35 编辑
  1. https://www.zhhbqg.com/1_1915/
  2. https://www.xbooktxt.net/34_34398/
复制代码
今天在写一个解析HTML的工具时,发现有的网站访问取不到源代码,分析了一下发现字节集可以获取到,但是没有办法转换成文本

我试了一下上面这两种网站都有这样的问题,通过无名网络访问模块访问得到了字节集,但是有时候转换成文本会失败
这两个站点都是GBK编码的,字节集也已经获取到了,但是转换就会失败,也没有报错信息不知道是哪里的问题
这种情况也不是每次都会发生,有小概率的情况下是可以解析出来内容的,但是大部分时间都解析不出来,其他就没发现什么规律了

但是每次用抓包工具就能抓到结果,这让我很纳闷

我已经测试过了肯定不是请求头的问题,我加了和抓包工具一样的请求头还是同样的结果



转换失败2.png (28.45 KB, 下载次数: 43)

转换失败2.png

精易模块.png (68.65 KB, 下载次数: 46)

精易模块.png

转换失败.png (37.35 KB, 下载次数: 47)

转换失败.png
稍后等于永不
回复

使用道具 举报

4

主题

63

帖子

253

积分

中级会员

Rank: 3Rank: 3

积分
253
沙发
 楼主| 发表于 2022-8-28 15:27:01 | 只看该作者
又测试了一下,同样的代码,同样的网站,我不知道为什么有时候有结果有时候就死活转换不出来




稍后等于永不
回复

使用道具 举报

4

主题

63

帖子

253

积分

中级会员

Rank: 3Rank: 3

积分
253
板凳
 楼主| 发表于 2022-8-28 15:28:38 | 只看该作者
这是我的代码,有没有有经验的朋友帮忙看一下是什么出了问题,指点一下,谢谢了!


网页访问.zip (58.22 KB, 下载次数: 0)
稍后等于永不
回复

使用道具 举报

444

主题

1万

帖子

4万

积分

超级版主

Rank: 8Rank: 8

积分
40599
地板
发表于 2022-8-28 16:52:15 | 只看该作者
网页编码是gbk的需要用   多字节到文本   方法

网页编码是utf8的使用   utf8到文本  方法。。


你发的这两个网站都是gbk的网页用  多字节到文本
安卓无障碍实战课:点击查看
交流群:641526939
回复

使用道具 举报

4

主题

63

帖子

253

积分

中级会员

Rank: 3Rank: 3

积分
253
5#
 楼主| 发表于 2022-8-28 19:07:13 | 只看该作者
创世魂 发表于 2022-8-28 16:52
网页编码是gbk的需要用   多字节到文本   方法

网页编码是utf8的使用   utf8到文本  方法。。

我第三张图里用的是多字节到文本的,但是有时候就是请求不出来,但用浏览器和抓包软件就能每次都请求出来
稍后等于永不
回复

使用道具 举报

111

主题

613

帖子

2178

积分

金牌会员

Rank: 6Rank: 6

积分
2178
QQ
6#
发表于 2022-8-28 19:38:46 | 只看该作者
敢不敢把你获取的数据  事先保存到文件,自己用眼先看看是什么个东西。
看清楚了,是否因为你访问协议头的问题,导致了,你获取的原始网页数据,就是几个GZIP 包呢????

评分

参与人数 1金钱 +15 收起 理由
BYWMnn9QFz59L6 + 15 赞一个!

查看全部评分

专业承接18-98岁xx的心理及生理教育辅导。
回复

使用道具 举报

4

主题

63

帖子

253

积分

中级会员

Rank: 3Rank: 3

积分
253
7#
 楼主| 发表于 2022-8-28 20:44:12 | 只看该作者
server 发表于 2022-8-28 19:38
敢不敢把你获取的数据  事先保存到文件,自己用眼先看看是什么个东西。
看清楚了,是否因为你访问协议头的 ...

明白了!!!
感谢大哥指点迷津,受益匪浅,感激不尽!!!
稍后等于永不
回复

使用道具 举报

111

主题

613

帖子

2178

积分

金牌会员

Rank: 6Rank: 6

积分
2178
QQ
8#
发表于 2022-8-28 21:18:29 | 只看该作者
创世魂 发表于 2022-8-28 16:52
网页编码是gbk的需要用   多字节到文本   方法

网页编码是utf8的使用   utf8到文本  方法。。

个别网页服务器,比较恶心,就拿抖音快手来讲,你直接访问得到的就是个gzip网页数据包。除非你加上正确协议头。才能得到明文网页数据。
专业承接18-98岁xx的心理及生理教育辅导。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2024-11-28 11:28 , Processed in 0.108710 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表