递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库

为什么字节集无法转换成文本?

查看数: 4606 | 评论数: 7 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2022-8-28 15:18

正文摘要:

本帖最后由 BYWMnn9QFz59L6 于 2022-8-28 15:35 编辑 https://www.zhhbqg.com/1_1915/ https://www.xbooktxt.net/34_34398/复制代码今天在写一个解析HTML的工具时,发现有的网站访问取不到源代码,分析了一下发现字 ...

回复

server 发表于 2022-8-28 21:18:29
创世魂 发表于 2022-8-28 16:52
网页编码是gbk的需要用   多字节到文本   方法

网页编码是utf8的使用   utf8到文本  方法。。

个别网页服务器,比较恶心,就拿抖音快手来讲,你直接访问得到的就是个gzip网页数据包。除非你加上正确协议头。才能得到明文网页数据。
BYWMnn9QFz59L6 发表于 2022-8-28 20:44:12
server 发表于 2022-8-28 19:38
敢不敢把你获取的数据  事先保存到文件,自己用眼先看看是什么个东西。
看清楚了,是否因为你访问协议头的 ...

明白了!!!
感谢大哥指点迷津,受益匪浅,感激不尽!!!
server 发表于 2022-8-28 19:38:46
敢不敢把你获取的数据  事先保存到文件,自己用眼先看看是什么个东西。
看清楚了,是否因为你访问协议头的问题,导致了,你获取的原始网页数据,就是几个GZIP 包呢????

评分

参与人数 1金钱 +15 收起 理由
BYWMnn9QFz59L6 + 15 赞一个!

查看全部评分

BYWMnn9QFz59L6 发表于 2022-8-28 19:07:13
创世魂 发表于 2022-8-28 16:52
网页编码是gbk的需要用   多字节到文本   方法

网页编码是utf8的使用   utf8到文本  方法。。

我第三张图里用的是多字节到文本的,但是有时候就是请求不出来,但用浏览器和抓包软件就能每次都请求出来
创世魂 发表于 2022-8-28 16:52:15
网页编码是gbk的需要用   多字节到文本   方法

网页编码是utf8的使用   utf8到文本  方法。。


你发的这两个网站都是gbk的网页用  多字节到文本
BYWMnn9QFz59L6 发表于 2022-8-28 15:28:38
这是我的代码,有没有有经验的朋友帮忙看一下是什么出了问题,指点一下,谢谢了!


网页访问.zip (58.22 KB, 下载次数: 0)

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2024-11-24 20:22 , Processed in 0.083317 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表