当前位置:   article > 正文

爬虫实例:正则表达式爬取微博热搜榜_正则表达式爬热搜

正则表达式爬热搜

最近在学习python的爬虫知识,分享一个爬取微博热搜的实例,代码很简单。

用到了requests,re,xlwt库

直接看图:

  1. #1导入模块
  2. import requests
  3. import re
  4. import xlwt
  5. #2定制请求头
  6. url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
  7. headers={
  8. "user-agent":""
  9. ,"Cookie":""
  10. }
  11. #3获取网页数据
  12. r=requests.get(url,headers=headers)
  13. r.encoding=r.apparent_encoding
  14. print(r.status_code)
  15. html=r.text
  16. #4用正则提取排名,热搜内容,热度等信息
  17. datalist=[]
  18. rank=re.findall(r'<td class="td-01 ranktop">(.*)</td>',html)
  19. name=re.findall(r'<a.*target="_blank">(.*?)</a>',html)[1:51]
  20. hot=re.findall(r'<span>(.*?)</span>',html)[1:51]
  21. datalist.append(rank)
  22. datalist.append(name)
  23. datalist.append(hot)
  24. #5保存数据
  25. book=xlwt.Workbook(encoding="utf-8")
  26. sheet=book.add_sheet("微博热搜",cell_overwrite_ok&#
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/958720
推荐阅读
相关标签
  

闽ICP备14008679号