递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库
查看: 9361|回复: 39
打印 上一主题 下一主题

[视窗] 分享轮胎:探测编码

[复制链接]

76

主题

835

帖子

4290

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
4290
跳转到指定楼层
楼主
发表于 2021-8-16 03:12:27 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 小蜗牛 于 2021-8-16 16:42 编辑

最近分享模块..感觉大家都不喜欢模块..而是喜欢轮子..
模块就暂时不发了...个人感觉比较实用的轮子就单独分享了...


检测字节集是否储存GBK/GB2312之外的字符..
如果储存了GBK/GB2312之外的字符,那么则认为是UTF-8编码..

应用场景:
1:采集非特定网页..不知道网站回应的是什么编码的情况下..
2:用户选择文件,不知道用户选择的文件是什么编码的情况下..


游客,如果您要查看本帖隐藏内容请回复

本帖被以下淘专辑推荐:

回复

使用道具 举报

76

主题

835

帖子

4290

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
4290
沙发
 楼主| 发表于 2021-8-16 03:38:37 | 只看该作者
本帖最后由 小蜗牛 于 2021-8-16 07:27 编辑

探测编码没有100%的准确率...任何人都做不到这一点...
文字越多的情况下,判断准确率越高..相反,文字越少,误判的可能性就越大...特别是两个UTF-8汉字的组合...

比如在记事本输入:"看戏"保存编码为UTF-8
然后探测编码会认为是GBK,解码内容为:"鐪嬫垙"
这时,为了更高的准确率,应该使用GB2312...
但是,这样也会导致一些问题,如果记事本里面,储存了GBK之内,GB2312之外的字符..
那么也会被误判为UTF-8..所以,取舍自己决定...
回复

使用道具 举报

439

主题

1万

帖子

3万

积分

超级版主

Rank: 8Rank: 8

积分
36941
板凳
发表于 2021-8-16 11:32:57 | 只看该作者
源码没上传。。
安卓无障碍实战课:点击查看
交流群:641526939
回复

使用道具 举报

39

主题

530

帖子

3749

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
3749
地板
发表于 2021-8-16 12:48:31 | 只看该作者
测试下试试
回复

使用道具 举报

39

主题

530

帖子

3749

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
3749
5#
发表于 2021-8-16 12:49:12 | 只看该作者
没有源码
回复

使用道具 举报

20

主题

257

帖子

2543

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
2543
6#
发表于 2021-8-16 15:25:24 | 只看该作者
这个确实有需求,有时XML没有声明编码,需要探测一下
回复

使用道具 举报

76

主题

835

帖子

4290

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
4290
7#
 楼主| 发表于 2021-8-16 16:40:39 | 只看该作者

哈哈...选错文件了,抱歉
回复

使用道具 举报

76

主题

835

帖子

4290

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
4290
8#
 楼主| 发表于 2021-8-16 16:42:49 | 只看该作者

抱歉...上传好了
回复

使用道具 举报

7

主题

410

帖子

2174

积分

金牌会员

Rank: 6Rank: 6

积分
2174
QQ
9#
发表于 2021-8-16 18:58:21 | 只看该作者
看一下学习下
回复

使用道具 举报

4

主题

510

帖子

2524

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
2524
10#
发表于 2021-8-16 21:15:06 | 只看该作者

看一下学习下
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2024-6-3 02:19 , Processed in 0.102343 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表