当前位置:   article > 正文

Python网络爬虫与信息提取(14)—— 百度搜索关键字爬取并整理摘要、标题、关键字等_爬取百度搜索页的内容python csdn

爬取百度搜索页的内容python csdn

前言

百度搜索的内容一般包含标题、摘要、网址、时间信息,本次主要实现根据搜索整理30页左右百度的搜索条例成csv文档。

原理

百度爬虫比较简单,模拟浏览器访问就可以爬取到所要的数据,访问某个关键字第几页的网址构成为:

"http://www.baidu.com/s?wd={}&pn={}".format(urllib.parse.quote(word),number)
  • 1

之后就是解析对应的标签提取信息了。

因为要提取关键字,所以解析得到摘要后需要对摘要进行结巴分词,分词后使用停用词表去掉停用词,最后整理高频词语为关键词。

代码所用停用词表下载:
链接: https://pan.baidu.com/s/1BzwVBhVr1gPqkyqFD-H7mA 提取码: 50tr

代码


                
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/868461
推荐阅读
相关标签
  

闽ICP备14008679号