赞
踩
百度搜索的内容一般包含标题、摘要、网址、时间信息,本次主要实现根据搜索整理30页左右百度的搜索条例成csv文档。
百度爬虫比较简单,模拟浏览器访问就可以爬取到所要的数据,访问某个关键字第几页的网址构成为:
"http://www.baidu.com/s?wd={}&pn={}".format(urllib.parse.quote(word),number)
之后就是解析对应的标签提取信息了。
因为要提取关键字,所以解析得到摘要后需要对摘要进行结巴分词,分词后使用停用词表去掉停用词,最后整理高频词语为关键词。
代码所用停用词表下载:
链接: https://pan.baidu.com/s/1BzwVBhVr1gPqkyqFD-H7mA 提取码: 50tr
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。