递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库
查看: 5770|回复: 6
打印 上一主题 下一主题

[视窗] 乱死了!搞不定!求助大佬如何判断文本或字节集编码?

[复制链接]

36

主题

160

帖子

1524

积分

金牌会员

Rank: 6Rank: 6

积分
1524
跳转到指定楼层
楼主
发表于 2021-8-13 18:07:43 | 只看该作者 |只看大图 回帖奖励 |正序浏览 |阅读模式
想读取一些文本文件,分别是ansi,utf8,Shift-JIS等编码在我知道的情况下可以分别这么写

一个用“多字节到文本”,一个用“UTF8到文本”,如果我要循环读取很多掺杂在一起的文档,都是不同的编码,有没有通用的命令?
或者有没有命令判断该用“多字节到文本”还是“UTF8到文本”?


回复

使用道具 举报

3

主题

134

帖子

2368

积分

金牌会员

Rank: 6Rank: 6

积分
2368
7#
发表于 2021-8-19 14:35:51 | 只看该作者
楼主看看这个轮子吧 编码探测
http://bbs.voldp.com/forum.php?mod=viewthread&tid=10603
回复

使用道具 举报

444

主题

1万

帖子

4万

积分

超级版主

Rank: 8Rank: 8

积分
40545
6#
发表于 2021-8-14 09:44:34 | 只看该作者
这个没有很好的办法。。最好的办法可能就是把这些文档统一转换成utf8或者utf16的编码,这样读的时候就统一了。
安卓无障碍实战课:点击查看
交流群:641526939
回复

使用道具 举报

36

主题

160

帖子

1524

积分

金牌会员

Rank: 6Rank: 6

积分
1524
5#
 楼主| 发表于 2021-8-13 23:48:41 | 只看该作者

你在说啥啊……
回复

使用道具 举报

5

主题

104

帖子

842

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
842
地板
发表于 2021-8-13 22:50:26 | 只看该作者
utf8到文本
回复

使用道具 举报

36

主题

160

帖子

1524

积分

金牌会员

Rank: 6Rank: 6

积分
1524
板凳
 楼主| 发表于 2021-8-13 19:52:24 | 只看该作者
本帖最后由 windkey 于 2021-8-13 19:57 编辑
0晨鹤0 发表于 2021-8-13 19:42
这个很难。需要综合许多种方法,并且结果还不一定准确。
比如 哪怕是大名鼎鼎的 visual studio code,也经 ...

哎,那我还是放弃吧。。。
回复

使用道具 举报

3

主题

134

帖子

2368

积分

金牌会员

Rank: 6Rank: 6

积分
2368
沙发
发表于 2021-8-13 19:42:11 | 只看该作者
这个很难。需要综合许多种方法,并且结果还不一定准确。
比如 哪怕是大名鼎鼎的 visual studio code,也经常判断错编码,尤其是特殊字符比较少的时候。

大概流程就是
1. 读文件头,比如 UTF8 BOM。不过更多时候是无BOM的
2. 按顺序读字节,不同编码有不同的特征,而大部分编码又兼容 asc ii

对于一些特殊格式 比如xml,py 等,有特殊的编码定义头,需要尝试解析。

总之,就是非常非常麻烦
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2024-11-25 14:54 , Processed in 0.097002 second(s), 21 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表