递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库
查看: 3001|回复: 6
打印 上一主题 下一主题

[视窗] 乱死了!搞不定!求助大佬如何判断文本或字节集编码?

[复制链接]

36

主题

158

帖子

1485

积分

金牌会员

Rank: 6Rank: 6

积分
1485
跳转到指定楼层
楼主
发表于 2021-8-13 18:07:43 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
想读取一些文本文件,分别是ansi,utf8,Shift-JIS等编码在我知道的情况下可以分别这么写

一个用“多字节到文本”,一个用“UTF8到文本”,如果我要循环读取很多掺杂在一起的文档,都是不同的编码,有没有通用的命令?
或者有没有命令判断该用“多字节到文本”还是“UTF8到文本”?


回复

使用道具 举报

3

主题

126

帖子

2132

积分

金牌会员

Rank: 6Rank: 6

积分
2132
沙发
发表于 2021-8-13 19:42:11 | 只看该作者
这个很难。需要综合许多种方法,并且结果还不一定准确。
比如 哪怕是大名鼎鼎的 visual studio code,也经常判断错编码,尤其是特殊字符比较少的时候。

大概流程就是
1. 读文件头,比如 UTF8 BOM。不过更多时候是无BOM的
2. 按顺序读字节,不同编码有不同的特征,而大部分编码又兼容 asc ii

对于一些特殊格式 比如xml,py 等,有特殊的编码定义头,需要尝试解析。

总之,就是非常非常麻烦
回复

使用道具 举报

36

主题

158

帖子

1485

积分

金牌会员

Rank: 6Rank: 6

积分
1485
板凳
 楼主| 发表于 2021-8-13 19:52:24 | 只看该作者
本帖最后由 windkey 于 2021-8-13 19:57 编辑
0晨鹤0 发表于 2021-8-13 19:42
这个很难。需要综合许多种方法,并且结果还不一定准确。
比如 哪怕是大名鼎鼎的 visual studio code,也经 ...

哎,那我还是放弃吧。。。
回复

使用道具 举报

4

主题

102

帖子

824

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
824
地板
发表于 2021-8-13 22:50:26 | 只看该作者
utf8到文本
回复

使用道具 举报

36

主题

158

帖子

1485

积分

金牌会员

Rank: 6Rank: 6

积分
1485
5#
 楼主| 发表于 2021-8-13 23:48:41 | 只看该作者

你在说啥啊……
回复

使用道具 举报

439

主题

1万

帖子

3万

积分

超级版主

Rank: 8Rank: 8

积分
37285
6#
发表于 2021-8-14 09:44:34 | 只看该作者
这个没有很好的办法。。最好的办法可能就是把这些文档统一转换成utf8或者utf16的编码,这样读的时候就统一了。
安卓无障碍实战课:点击查看
交流群:641526939
回复

使用道具 举报

3

主题

126

帖子

2132

积分

金牌会员

Rank: 6Rank: 6

积分
2132
7#
发表于 2021-8-19 14:35:51 | 只看该作者
楼主看看这个轮子吧 编码探测
http://bbs.voldp.com/forum.php?mod=viewthread&tid=10603
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2024-6-17 12:59 , Processed in 0.095788 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表