递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库
查看: 298|回复: 9
打印 上一主题 下一主题

[视窗] 【大厂面试题】火山如何能实现位图数据bitmap处理文本?

[复制链接]

20

主题

232

帖子

1772

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
1772
跳转到指定楼层
楼主
发表于 前天 22:03 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 abcfox 于 2025-10-1 22:18 编辑

因为项目需要处理重复文本,只会使用分割文本或正则匹配再查找去重复,文件大了处理起来非常慢,于是到网上查找发现处理文本占内存少速度又快基本都推荐用位图数据bitmap找到易语言的方法,还有C/C++的方法,还有AI全自动生成的python代码,但是都不会翻译成火山代码,论坛哪位会易语言或C++的看看能翻译成火山代码分享吗?应该有不少人也会用到,谢谢!!

大厂第三轮面试问题如下:
     A文件有40亿个QQ号码,B文件有40万个QQ号码,所有QQ号码都是无符号整数,求A和B的交集,可用内存限定不超600M.

附件是源码文件:

面试题代码.txt (2.75 KB, 下载次数: 37)


bitmap_set_no_ptr.c (5.64 KB, 下载次数: 5)



回复

使用道具 举报

20

主题

232

帖子

1772

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
1772
沙发
 楼主| 发表于 前天 22:16 | 只看该作者
易语言千万级整数型数组去重仅需400ms.rar (128.04 KB, 下载次数: 15)

这是易语言源码截图
回复

使用道具 举报

6

主题

179

帖子

2208

积分

金牌会员

Rank: 6Rank: 6

积分
2208
板凳
发表于 前天 23:15 | 只看该作者
使用哈希表不就可以了
回复

使用道具 举报

23

主题

410

帖子

3602

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
3602
地板
发表于 昨天 08:11 来自手机 | 只看该作者
用火山处理这种问题最简单了
回复

使用道具 举报

23

主题

410

帖子

3602

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
3602
5#
发表于 昨天 08:24 来自手机 | 只看该作者
文本去重复一般哈希表就可以了,整数去重使用标准逻辑数组类,一个不行的话使用两个逻辑标准数组类(这个逻辑标准数组类就是bitmap),或者自己简单实现个,自己实现的可能稍微性能差一点点
回复

使用道具 举报

23

主题

410

帖子

3602

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
3602
6#
发表于 昨天 10:15 来自手机 | 只看该作者
整数去重不是几十亿的数据哈希表足矣
回复

使用道具 举报

23

主题

410

帖子

3602

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
3602
7#
发表于 昨天 10:15 来自手机 | 只看该作者
整数去重不是几十亿的数据哈希表足矣
回复

使用道具 举报

20

主题

232

帖子

1772

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
1772
8#
 楼主| 发表于 昨天 23:41 | 只看该作者
weilai 发表于 2025-10-2 08:24
文本去重复一般哈希表就可以了,整数去重使用标准逻辑数组类,一个不行的话使用两个逻辑标准数组类(这个逻 ...

大佬,能不能写个简单例子,不会的问题真的没有参考完全没有思路

假设有两个文件:a.txt 大小100M,50万行文本;b.txt 大小60M,30万行文本;
功能1:a.txt 文件去掉 b.txt 文件中存在的重复行后输出到新文件 c.txt
功能2:取 a.txt 和 b.txt 的相同文本行(即面试题的取交集)后输出到新文件 d.txt
回复

使用道具 举报

20

主题

232

帖子

1772

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
1772
9#
 楼主| 发表于 昨天 23:50 | 只看该作者
本帖最后由 abcfox 于 2025-10-2 23:53 编辑

下载源码的人挺多的,说明很多人也想找这种方法,只是真能用火山处理可能没有几个,主流的英语编程借助AI轻易就能写出来了,python、C++的豆包和通义都能写出来测试能直接运行,只是刚接触python还看不懂,连aardio借助AI也能写出来,只是没测试实际效果。英语差点,将就用了,再等个5年可能AI也能完美写中文程序了。
回复

使用道具 举报

23

主题

410

帖子

3602

积分

核心用户

Rank: 9Rank: 9Rank: 9

积分
3602
10#
发表于 7 小时前 | 只看该作者

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2025-10-3 07:59 , Processed in 0.084570 second(s), 20 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表