楼主看看这个轮子吧 编码探测 http://bbs.voldp.com/forum.php?mod=viewthread&tid=10603 |
这个没有很好的办法。。最好的办法可能就是把这些文档统一转换成utf8或者utf16的编码,这样读的时候就统一了。 |
huay6 发表于 2021-8-13 22:50 你在说啥啊…… |
utf8到文本 |
本帖最后由 windkey 于 2021-8-13 19:57 编辑 0晨鹤0 发表于 2021-8-13 19:42 哎,那我还是放弃吧。。。 |
这个很难。需要综合许多种方法,并且结果还不一定准确。 比如 哪怕是大名鼎鼎的 visual studio code,也经常判断错编码,尤其是特殊字符比较少的时候。 大概流程就是 1. 读文件头,比如 UTF8 BOM。不过更多时候是无BOM的 2. 按顺序读字节,不同编码有不同的特征,而大部分编码又兼容 asc ii 对于一些特殊格式 比如xml,py 等,有特殊的编码定义头,需要尝试解析。 总之,就是非常非常麻烦 |
|Archiver|手机版|小黑屋|递归火山软件开发平台
( 鄂ICP备18029190号 )
GMT+8, 2025-6-20 13:28 , Processed in 0.087566 second(s), 22 queries .
Powered by Discuz! X3.4
© 2001-2017 Comsenz Inc.