小蜗牛 发表于 2021-8-16 03:12:27

分享轮胎:探测编码

本帖最后由 小蜗牛 于 2021-8-16 16:42 编辑

最近分享模块..感觉大家都不喜欢模块..而是喜欢轮子..
模块就暂时不发了...个人感觉比较实用的轮子就单独分享了...


检测字节集是否储存GBK/GB2312之外的字符..
如果储存了GBK/GB2312之外的字符,那么则认为是UTF-8编码..

应用场景:
1:采集非特定网页..不知道网站回应的是什么编码的情况下..
2:用户选择文件,不知道用户选择的文件是什么编码的情况下..


**** Hidden Message *****

小蜗牛 发表于 2021-8-16 03:38:37

本帖最后由 小蜗牛 于 2021-8-16 07:27 编辑

探测编码没有100%的准确率...任何人都做不到这一点...
文字越多的情况下,判断准确率越高..相反,文字越少,误判的可能性就越大...特别是两个UTF-8汉字的组合...

比如在记事本输入:"看戏"保存编码为UTF-8
然后探测编码会认为是GBK,解码内容为:"鐪嬫垙"
这时,为了更高的准确率,应该使用GB2312...
但是,这样也会导致一些问题,如果记事本里面,储存了GBK之内,GB2312之外的字符..
那么也会被误判为UTF-8..所以,取舍自己决定...

创世魂 发表于 2021-8-16 11:32:57

源码没上传。。

dengzf 发表于 2021-8-16 12:48:31

测试下试试

dengzf 发表于 2021-8-16 12:49:12

没有源码:)

IvzCX 发表于 2021-8-16 15:25:24

这个确实有需求,有时XML没有声明编码,需要探测一下

小蜗牛 发表于 2021-8-16 16:40:39

创世魂 发表于 2021-8-16 11:32
源码没上传。。

哈哈...选错文件了,抱歉

小蜗牛 发表于 2021-8-16 16:42:49

dengzf 发表于 2021-8-16 12:49
没有源码

抱歉...上传好了

芒g一号 发表于 2021-8-16 18:58:21

看一下学习下

网络注册会员 发表于 2021-8-16 21:15:06


看一下学习下
页: [1] 2 3 4
查看完整版本: 分享轮胎:探测编码