abcfox 发表于 2025-10-1 22:03:39

【大厂面试题】火山如何能实现位图数据bitmap处理文本?

本帖最后由 abcfox 于 2025-10-1 22:18 编辑

因为项目需要处理重复文本,只会使用分割文本或正则匹配再查找去重复,文件大了处理起来非常慢,于是到网上查找发现处理文本占内存少速度又快基本都推荐用位图数据bitmap,找到易语言的方法,还有C/C++的方法,还有AI全自动生成的python代码,但是都不会翻译成火山代码,论坛哪位会易语言或C++的看看能翻译成火山代码分享吗?应该有不少人也会用到,谢谢!!

大厂第三轮面试问题如下:
   A文件有40亿个QQ号码,B文件有40万个QQ号码,所有QQ号码都是无符号整数,求A和B的交集,可用内存限定不超600M.

附件是源码文件:






abcfox 发表于 2025-10-1 22:16:47



这是易语言源码截图

gzylove 发表于 2025-10-1 23:15:31

使用哈希表不就可以了

weilai 发表于 2025-10-2 08:11:58

用火山处理这种问题最简单了

weilai 发表于 2025-10-2 08:24:28

文本去重复一般哈希表就可以了,整数去重使用标准逻辑数组类,一个不行的话使用两个逻辑标准数组类(这个逻辑标准数组类就是bitmap),或者自己简单实现个,自己实现的可能稍微性能差一点点

weilai 发表于 2025-10-2 10:15:43

整数去重不是几十亿的数据哈希表足矣

weilai 发表于 2025-10-2 10:15:43

整数去重不是几十亿的数据哈希表足矣

abcfox 发表于 2025-10-2 23:41:06

weilai 发表于 2025-10-2 08:24
文本去重复一般哈希表就可以了,整数去重使用标准逻辑数组类,一个不行的话使用两个逻辑标准数组类(这个逻 ...

大佬,能不能写个简单例子,不会的问题真的没有参考完全没有思路

假设有两个文件:a.txt 大小100M,50万行文本;b.txt 大小60M,30万行文本;
功能1:a.txt 文件去掉 b.txt 文件中存在的重复行后输出到新文件 c.txt
功能2:取 a.txt 和 b.txt 的相同文本行(即面试题的取交集)后输出到新文件 d.txt

abcfox 发表于 2025-10-2 23:50:16

本帖最后由 abcfox 于 2025-10-2 23:53 编辑

下载源码的人挺多的,说明很多人也想找这种方法,只是真能用火山处理可能没有几个,主流的英语编程借助AI轻易就能写出来了,python、C++的豆包和通义都能写出来测试能直接运行,只是刚接触python还看不懂,连aardio借助AI也能写出来,只是没测试实际效果。英语差点,将就用了,再等个5年可能AI也能完美写中文程序了。

weilai 发表于 2025-10-3 00:28:52

本帖最后由 weilai 于 2025-10-3 00:31 编辑

abcfox 发表于 2025-10-2 23:41
大佬,能不能写个简单例子,不会的问题真的没有参考完全没有思路

假设有两个文件:a.txt 大小100M,50万 ...
下面这就是示例,我没测试,你试试看速度如何(编译后),如果还慢再优化

文本数组合成一个文本

页: [1] 2
查看完整版本: 【大厂面试题】火山如何能实现位图数据bitmap处理文本?