分享轮胎:探测编码
本帖最后由 小蜗牛 于 2021-8-16 16:42 编辑最近分享模块..感觉大家都不喜欢模块..而是喜欢轮子..
模块就暂时不发了...个人感觉比较实用的轮子就单独分享了...
检测字节集是否储存GBK/GB2312之外的字符..
如果储存了GBK/GB2312之外的字符,那么则认为是UTF-8编码..
应用场景:
1:采集非特定网页..不知道网站回应的是什么编码的情况下..
2:用户选择文件,不知道用户选择的文件是什么编码的情况下..
**** Hidden Message *****
本帖最后由 小蜗牛 于 2021-8-16 07:27 编辑
探测编码没有100%的准确率...任何人都做不到这一点...
文字越多的情况下,判断准确率越高..相反,文字越少,误判的可能性就越大...特别是两个UTF-8汉字的组合...
比如在记事本输入:"看戏"保存编码为UTF-8
然后探测编码会认为是GBK,解码内容为:"鐪嬫垙"
这时,为了更高的准确率,应该使用GB2312...
但是,这样也会导致一些问题,如果记事本里面,储存了GBK之内,GB2312之外的字符..
那么也会被误判为UTF-8..所以,取舍自己决定...
源码没上传。。 测试下试试 没有源码:) 这个确实有需求,有时XML没有声明编码,需要探测一下 创世魂 发表于 2021-8-16 11:32
源码没上传。。
哈哈...选错文件了,抱歉 dengzf 发表于 2021-8-16 12:49
没有源码
抱歉...上传好了 看一下学习下
看一下学习下