递归火山软件开发平台
标题:
【火山AI源码分享】百度下拉关键词采集软件
[打印本页]
作者:
domingo
时间:
昨天 21:14
标题:
【火山AI源码分享】百度下拉关键词采集软件
一、软件介绍
这是一个基于火山视窗(WV)开发平台、使用 WSV (火山视窗中文语言) 编写的 Windows 桌面程序,用于自动采集百度搜索的下拉联想关键词。
(, 下载次数: 0)
上传
点击文件名下载附件
二、功能概述
工具通过读取用户准备的 关键词.txt 文件,逐条向百度搜索建议接口
https://suggestion.baidu.com/su?wd=
发起 HTTP 请求,解析返回的 JSONP 数据,提取下拉联想词,并支持多层级深度采集——也就是说,不仅采集关键词本身的联想词,还会继续对每个联想词再采集它的联想词,层层深入。
三、核心特性
多线程采集 支持 1-8 线程并发,大幅提升采集速度
深度采集 1-5 级深度可选,挖掘长尾关键词
自动去重 内置哈希表去重,避免重复收录
断点续采 每消耗一个关键词就从 关键词.txt 中删除,意外中断后不重复采集
实时展示 列表框实时显示最新采集结果,上限 1500 条自动滚动
结果导出 采集结果写入 采集结果.txt,支持一键用记事本打开查看
操作简单 纯 GUI 操作,无需命令行
四、界面布局
顶部工具栏:导入关键词 → 设置采集深度(1-5)→ 设置线程数(1-8)→ 开始采集
中部列表:实时显示采集到的下拉关键词
底部状态栏:显示采集进度提示
五、技术栈
界面框架:火山视窗 MFC 界面基本类
网络请求:WinHTTP 5.1(WinHttp程序)
数据解析:JSON 数据访问支持(JSON对象类 / JSON数组类),配合嵌入式 C++ 预处理百度非标准 JSONP 格式
线程管理:火山视窗 启动线程 + 基于 WaitableTimer 的非阻塞延时
COM 线程安全:每个工作线程入口调用 CoInitializeEx、出口调用 CoUninitialize,确保 COM 组件(WinHTTP)稳定运行
六、工作流程
准备关键词:点击"导入关键词"→ 自动打开记事本编辑 关键词.txt(一行一个)
配置参数:设置采集深度和并发线程数
开始采集:点击"采集"→ 程序自动读取关键词 → 多线程并发请求百度 API → 逐层深挖联想词
查看结果:采集完成后弹出提示,点击"查看结果"用记事本打开 采集结果.txt
七、技术亮点
使用嵌入式 C++ 处理百度接口返回的非标准 JSONP 格式(补全JSON键名 方法),将 {q:... ,s:...} 补全为标准 JSON 后再解析
线程间通过互斥锁类同步共享资源(关键词队列、UI 更新、结果写入)
结果文件使用 Windows API CreateFileW / WriteFile 直接写入,避免火山中文库的文件写入在大并发下的性能瓶颈
八、源码下载
寄语:说实话,我都不知道它写的啥,我本来是用乐易模块写了一份,我还能看懂,但是很多人没有乐易模块,让它用系统类库写,然后写完我也看不懂,但是就是能用。
(, 下载次数: 0)
上传
点击文件名下载附件
欢迎光临 递归火山软件开发平台 (https://bbs.voldp.com/)
Powered by Discuz! X3.4