递归火山软件开发平台

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 火山 源码 类库
查看: 11|回复: 0
打印 上一主题 下一主题

[视窗] 【火山AI源码分享】百度下拉关键词采集软件

[复制链接]

8

主题

159

帖子

1077

积分

金牌会员

Rank: 9Rank: 9Rank: 9

积分
1077
跳转到指定楼层
楼主
发表于 昨天 21:14 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
一、软件介绍
这是一个基于火山视窗(WV)开发平台、使用 WSV (火山视窗中文语言) 编写的 Windows 桌面程序,用于自动采集百度搜索的下拉联想关键词。



二、功能概述
工具通过读取用户准备的 关键词.txt 文件,逐条向百度搜索建议接口 https://suggestion.baidu.com/su?wd= 发起 HTTP 请求,解析返回的 JSONP 数据,提取下拉联想词,并支持多层级深度采集——也就是说,不仅采集关键词本身的联想词,还会继续对每个联想词再采集它的联想词,层层深入。

三、核心特性
多线程采集        支持 1-8 线程并发,大幅提升采集速度
深度采集        1-5 级深度可选,挖掘长尾关键词
自动去重        内置哈希表去重,避免重复收录
断点续采        每消耗一个关键词就从 关键词.txt 中删除,意外中断后不重复采集
实时展示        列表框实时显示最新采集结果,上限 1500 条自动滚动
结果导出        采集结果写入 采集结果.txt,支持一键用记事本打开查看
操作简单        纯 GUI 操作,无需命令行

四、界面布局
顶部工具栏:导入关键词 → 设置采集深度(1-5)→ 设置线程数(1-8)→ 开始采集
中部列表:实时显示采集到的下拉关键词
底部状态栏:显示采集进度提示

五、技术栈
界面框架:火山视窗 MFC 界面基本类
网络请求:WinHTTP 5.1(WinHttp程序)
数据解析:JSON 数据访问支持(JSON对象类 / JSON数组类),配合嵌入式 C++ 预处理百度非标准 JSONP 格式
线程管理:火山视窗 启动线程 + 基于 WaitableTimer 的非阻塞延时
COM 线程安全:每个工作线程入口调用 CoInitializeEx、出口调用 CoUninitialize,确保 COM 组件(WinHTTP)稳定运行

六、工作流程
准备关键词:点击"导入关键词"→ 自动打开记事本编辑 关键词.txt(一行一个)
配置参数:设置采集深度和并发线程数
开始采集:点击"采集"→ 程序自动读取关键词 → 多线程并发请求百度 API → 逐层深挖联想词
查看结果:采集完成后弹出提示,点击"查看结果"用记事本打开 采集结果.txt

七、技术亮点
使用嵌入式 C++ 处理百度接口返回的非标准 JSONP 格式(补全JSON键名 方法),将 {q:... ,s:...} 补全为标准 JSON 后再解析
线程间通过互斥锁类同步共享资源(关键词队列、UI 更新、结果写入)
结果文件使用 Windows API CreateFileW / WriteFile 直接写入,避免火山中文库的文件写入在大并发下的性能瓶颈

八、源码下载

寄语:说实话,我都不知道它写的啥,我本来是用乐易模块写了一份,我还能看懂,但是很多人没有乐易模块,让它用系统类库写,然后写完我也看不懂,但是就是能用。

百度下拉关键词采集.zip (8.04 KB, 下载次数: 0)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|递归火山软件开发平台 ( 鄂ICP备18029190号 )

GMT+8, 2026-5-26 03:21 , Processed in 0.086960 second(s), 22 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表