当前位置:   article > 正文

微博关于搜索话题数据的爬虫Python全代码实现(效果如封面)_微博话题数据爬取

微博话题数据爬取

 一、准备

(本文是关于“网恋”话题,打比赛顺带做的,需要其他的可以自己改)

1.微博关于网恋话题的网址:https://s.weibo.com/weibo?q=%E7%BD%91%E6%81%8B

2.必要的库:

        Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库,比 urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求,无需手动为 URL 添加查询串, 也不需要对 POST 数据进行表单编码。相对于 urllib3 库, requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能

        Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。

        Pandas 库是机器学习四个基础库之一, 它有着强大的数据分析能力和处理工具。它支持数据增、删、改、查;支持时间序列分析功能;支持灵活处理缺失数据;具有丰富的数据处理函数;具有快速、灵活、富有表现力的数据结构:DataFrame 数据框和 Series 系列。

        time库是Python中处理时间的标准库,是最基础的时间处理库。

  1. import requests # 发送请求
  2. from bs4 import BeautifulSoup # 解析网页
  3. import pandas as pd # 存取csv
  4. from time import sleep # 等待时间

二、了解和明白目标

1.需要和准备提取的信息

  1. names = []
  2. urls = []
  3. times = []
  4. coms = []
  5. shares = []
  6. stars = []
  7. talks = []
  8. df['链接'] = urls
  9. df['名称'] = names
  10. df['时间'] = times
  11. df['发表'] = coms
  12. df['分享'] = shares
  13. df['讨论'] = talks
  14. df['点赞'] = stars

 2.网页的位置信息ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/841399
推荐阅读
相关标签
  

闽ICP备14008679号