递归火山软件开发平台»论坛 › 递归火山软件开发平台 › 火山平台俱乐部 › 乱死了！搞不定！求助大佬如何判断文本或字节集编码？ ...

乱死了！搞不定！求助大佬如何判断文本或字节集编码？

查看数: 11806 | 评论数: 6 | 收藏 0

关灯 | 提示：支持键盘翻页<-左右->

帖子模式

windkey

发布时间: 2021-8-13 18:07

正文摘要:

想读取一些文本文件，分别是ansi，utf8，Shift-JIS等编码在我知道的情况下可以分别这么写一个用“多字节到文本”，一个用“UTF8到文本”，如果我要循环读取很多掺杂在一起的文档，都是不同的编码，有没有通用的 ...

0晨鹤0 发表于 2021-8-19 14:35:51

楼主看看这个轮子吧编码探测
http://bbs.voldp.com/forum.php?mod=viewthread&tid=10603

创世魂 发表于 2021-8-14 09:44:34

这个没有很好的办法。。最好的办法可能就是把这些文档统一转换成utf8或者utf16的编码，这样读的时候就统一了。

windkey 发表于 2021-8-13 23:48:41

huay6 发表于 2021-8-13 22:50
utf8到文本

你在说啥啊……

huay6 发表于 2021-8-13 22:50:26

utf8到文本

windkey 发表于 2021-8-13 19:52:24

本帖最后由 windkey 于 2021-8-13 19:57 编辑

0晨鹤0 发表于 2021-8-13 19:42
这个很难。需要综合许多种方法，并且结果还不一定准确。
比如哪怕是大名鼎鼎的 visual studio code，也经 ...

哎，那我还是放弃吧。。。

0晨鹤0 发表于 2021-8-13 19:42:11

这个很难。需要综合许多种方法，并且结果还不一定准确。
比如哪怕是大名鼎鼎的 visual studio code，也经常判断错编码，尤其是特殊字符比较少的时候。

大概流程就是
1. 读文件头，比如 UTF8 BOM。不过更多时候是无BOM的
2. 按顺序读字节，不同编码有不同的特征，而大部分编码又兼容 asc ii

对于一些特殊格式比如xml,py 等，有特殊的编码定义头，需要尝试解析。

总之，就是非常非常麻烦

		自动登录	找回密码
密码			立即注册

乱死了！搞不定！求助大佬如何判断文本或字节集编码？

正文摘要:

回复