递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库

乱死了!搞不定!求助大佬如何判断文本或字节集编码?

查看数: 9821 | 评论数: 6 | 收藏 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2021-8-13 18:07

正文摘要:

想读取一些文本文件,分别是ansi,utf8,Shift-JIS等编码在我知道的情况下可以分别这么写 一个用“多字节到文本”,一个用“UTF8到文本”,如果我要循环读取很多掺杂在一起的文档,都是不同的编码,有没有通用的 ...

回复

0晨鹤0 发表于 2021-8-19 14:35:51
楼主看看这个轮子吧 编码探测
http://bbs.voldp.com/forum.php?mod=viewthread&tid=10603
创世魂 发表于 2021-8-14 09:44:34
这个没有很好的办法。。最好的办法可能就是把这些文档统一转换成utf8或者utf16的编码,这样读的时候就统一了。
windkey 发表于 2021-8-13 23:48:41

你在说啥啊……
huay6 发表于 2021-8-13 22:50:26
utf8到文本
windkey 发表于 2021-8-13 19:52:24
本帖最后由 windkey 于 2021-8-13 19:57 编辑
0晨鹤0 发表于 2021-8-13 19:42
这个很难。需要综合许多种方法,并且结果还不一定准确。
比如 哪怕是大名鼎鼎的 visual studio code,也经 ...

哎,那我还是放弃吧。。。
0晨鹤0 发表于 2021-8-13 19:42:11
这个很难。需要综合许多种方法,并且结果还不一定准确。
比如 哪怕是大名鼎鼎的 visual studio code,也经常判断错编码,尤其是特殊字符比较少的时候。

大概流程就是
1. 读文件头,比如 UTF8 BOM。不过更多时候是无BOM的
2. 按顺序读字节,不同编码有不同的特征,而大部分编码又兼容 asc ii

对于一些特殊格式 比如xml,py 等,有特殊的编码定义头,需要尝试解析。

总之,就是非常非常麻烦

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2025-6-20 13:28 , Processed in 0.087566 second(s), 22 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表