火山视窗CEF浏览器解析网页取**热搜词
通过本例程可以学习到cef浏览器取网页源码,html解析获取网页关键词。
一、准备工作
1、简单的设计一个界面。
2、教程这里使用火狐浏览器,用火狐浏览器打开**,打开火狐浏览器的开发者工具,也就是网页右键选择“检查”。
3、选择“查看器”,比如你想取**的热搜榜。光标定位选中。
3、右键复制,选择CSS选择器。
4、同样的操作在,选中另外一条热搜,并复制CSS选择器。
5、最后复制出来后会出现以下两条数据,会看到基本一样,只是前面的一个序号不同,如果直接用这个路径地址只能取出特定的热搜词。
li.hotsearch-item:nth-child(1) > a:nth-child(1) > span:nth-child(2)
li.hotsearch-item:nth-child(3) > a:nth-child(1) > span:nth-child(2)
如果想要循环取出所有的热搜词,需要改成下面的格式,将第一项的li标签保留,其余内容全部删除,因为在这里第一项相当于数组,如果想要取出这个数组所有成员,就需要将成员索引信息删掉。
li> a:nth-child(1) > span:nth-child(2)
6、添加html解析工具类模块。
7、首先调用取框架方法,取出框架后才能取源代码。
8、定义“高级网页解析器”变量,根据网页源码创建解析器。
9、创建后调用“cha询元素”就可以根据CSS路径进行网页元素cha询。
10、cha询结束后利用计次循环,循环所有节点。
11、最后取出节点文本。
12、点击按钮就可以解析出所有的热搜词。