赞
踩
最近在学习python的爬虫知识,分享一个爬取微博热搜的实例,代码很简单。
用到了requests,re,xlwt库
直接看图:
- #1导入模块
- import requests
- import re
- import xlwt
-
- #2定制请求头
- url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6"
- headers={
- "user-agent":""
- ,"Cookie":""
- }
- #3获取网页数据
- r=requests.get(url,headers=headers)
- r.encoding=r.apparent_encoding
- print(r.status_code)
- html=r.text
- #4用正则提取排名,热搜内容,热度等信息
- datalist=[]
- rank=re.findall(r'<td class="td-01 ranktop">(.*)</td>',html)
- name=re.findall(r'<a.*target="_blank">(.*?)</a>',html)[1:51]
- hot=re.findall(r'<span>(.*?)</span>',html)[1:51]
- datalist.append(rank)
- datalist.append(name)
- datalist.append(hot)
- #5保存数据
- book=xlwt.Workbook(encoding="utf-8")
- sheet=book.add_sheet("微博热搜",cell_overwrite_ok&#

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。