赞
踩
(本文是关于“网恋”话题,打比赛顺带做的,需要其他的可以自己改)
1.微博关于网恋话题的网址:https://s.weibo.com/weibo?q=%E7%BD%91%E6%81%8B
2.必要的库:
Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库,比 urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求,无需手动为 URL 添加查询串, 也不需要对 POST 数据进行表单编码。相对于 urllib3 库, requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能
Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。
Pandas 库是机器学习四个基础库之一, 它有着强大的数据分析能力和处理工具。它支持数据增、删、改、查;支持时间序列分析功能;支持灵活处理缺失数据;具有丰富的数据处理函数;具有快速、灵活、富有表现力的数据结构:DataFrame 数据框和 Series 系列。
time库是Python中处理时间的标准库,是最基础的时间处理库。
- import requests # 发送请求
- from bs4 import BeautifulSoup # 解析网页
- import pandas as pd # 存取csv
- from time import sleep # 等待时间
1.需要和准备提取的信息
- names = []
- urls = []
- times = []
- coms = []
- shares = []
- stars = []
- talks = []
-
-
- df['链接'] = urls
- df['名称'] = names
- df['时间'] = times
- df['发表'] = coms
- df['分享'] = shares
- df['讨论'] = talks
- df['点赞'] = stars
2.网页的位置信息ÿ
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。