赞
踩
本节总结一下各种文本内容爬取的方法,进行一下案例实战,附详细解析,包含:微博评论爬取;豆瓣电影信息爬取;飞卢网小说爬取;知乎问答爬取。
- import re # 导入正则表达式模块,用于提取文本中的中文字符
- import requests # 导入requests模块,用于发起网络请求
- import pandas as pd # 导入pandas模块,用于数据处理和保存到Excel文件
-
- # 设置要爬取的微博评论页面的URL
- url = 'https://m.weibo.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0'
-
- # 设置请求头,伪装成浏览器进行访问,避免被服务器识别为爬虫
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
- }
-
- # 发起GET请求,获取微博评论页面的数据
- response = requests.get(url=url, headers=headers)
-
- # 初始化一个空列表,用于存储爬取到的评论信息
- lis = []
-
- # 遍历响应数据中的评论列表
- for index in response.json()['data']['data']:
- # 使用正则表达式提取评论中的中文字符,并拼接成字符串
- content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text']))
-
- # 构造一个字典,存储爬取到的评论信息
- dit = {
- '用户': index['user']['screen_name'], # 用户名
- '地区': index['source'].replace('来自', ''), # 地区,这里简单地将来源文本中的“来自”替换为空字符串
- '评论': content, # 评论内容
- '日期': index['created_at'] # 评论日期
- }
-
- # 将构造好的字典添加到列表中
- lis.append(dit)
-
- # 打印爬取到的评论信息(注:这行代码可以注释掉,仅用于调试)
- print(dit)
-
- # 将列表转换为pandas DataFrame,方便后续处理
- pd_data = pd.DataFrame(lis)
-
- # 将DataFrame保存到Excel文件中
- pd_data.to_excel('微博评论.xlsx')
![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)
结果展示,评论信息保存在excel中
- import requests # 导入requests库,用于发送网络请求
- import parsel # 导入parsel库,用于解析HTML或XML数据
- import csv # 导入csv库,用于写入CSV文件
- import time # 导入time库,用于控制程序运行时间或休眠
- # 以追加模式打开文件,用于写入豆瓣电影Top250的信息
- f = open('豆瓣Top250.csv', mode='a', encoding='utf-8', newline='')
- # 定义csv文件的列名
- csv_writer = csv.DictWriter(f, fieldnames=[
- '标题', # 电影标题
- '导演', # 导演
- '演员', # 演员
- '电影年份', # 电影年份
- '拍摄国家', # 拍摄国家
- '电影类型', # 电影类型
- '电影评分', # 电影评分
- '评论人数', # 评论人数
- '电影简介', # 电影简介
- ])
- # 写入CSV文件的列名(即表头)
- csv_writer.writeheader()
- # 初始化一个变量num,用于控制爬取的页码
- num = 1
-
- for page in range(0, 250, 25):
- print(f'正在爬取第{num}页数据内容')
- num += 1 # 更新页码
- time.sleep(1) # 暂停1s,防止更新过于频繁
- # 1. 发送请求, 确定url地址 然后对其发送请求
- url = f'https://movie.douban.com/top250?start={page}&filter='
- # User-Agent 浏览器的基本标识 基本信息 headers请求头 主要是把python代码进行伪装
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
- }
- response = requests.get(url=url, headers=headers) # 发送GET请求,获取响应内容
- selector = parsel.Selector(response.text) # 使用parsel库解析HTML内容
- # css选择器 主要根据标签属性内容提取数据
- lis = selector.css('.grid_view li') # 获取所有li标签 返回的数据 列表, 列表里面没一个元素都是selector对象
- for li in lis:
- title = li.css('.info .hd span.title:nth-child(1)::text').get() # 电影的名字
- movie_info_list = li.css('.bd p:nth-child(1)::text').getall() # 电影的信息
- # getall 返回的是列表 strip() 去除字符串左右两端空格
- actor_list = movie_info_list[0].strip().split(' ')
- if len(actor_list) > 1:
- actor_1 = actor_list[0].replace('导演: ', '') # 导演
- actor_2 = actor_list[1].replace('主演: ', '').replace('/...', '') # 主演
- movie_info = movie_info_list[1].strip().split(' / ')
- movie_year = movie_info[0] # 电影的年份
- movie_country = movie_info[1] # 电影的国家
- movie_type = movie_info[2] # 电影的类型
- movie_sum = li.css('.inq::text').get() # 电影简介
- movie_num = li.css('.rating_num::text').get() # 电影评分
- comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '') # 评论人数
- else:
- actor_1 = actor_list[0]
- actor_2 = 'None'
- dit = { # 将提取到的信息构造成一个字典
- '标题': title,
- '导演': actor_1,
- '演员': actor_2,
- '电影年份': movie_year,
- '拍摄国家': movie_country,
- '电影类型': movie_type,
- '电影评分': movie_num,
- '评论人数': comment,
- '电影简介': movie_sum,
- }
- csv_writer.writerow(dit) # 将提取到的电影信息写入CSV文件
- print(title, actor_1, actor_2, movie_year, movie_country, movie_type, movie_sum, movie_num, comment, sep='|')
![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)
结果展示,电影信息以CSV文件保存
- """
- 多页 多个数据采集, 我们要去分析, 请求url地址变化规律
- """
- import requests # 导入requests库,用于发起网络请求
- import parsel # 导入parsel库,用于解析HTML内容
- # 遍历页码,从1到43
- for page in range(1, 44):
- # 构造请求的URL,其中{page}会被循环中的page值替换
- url = f'https://b.faloo.com/1163585_{page}.html'
- # 设置请求头,伪装成浏览器访问
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
- }
- # 发起GET请求,获取网页内容
- response = requests.get(url=url, headers=headers)
- # 使用parsel库的Selector类解析网页内容
- selector = parsel.Selector(response.text)
- # 使用CSS选择器提取小说的标题
- title = selector.css('.c_l_title h1::text').get().replace('偷吃我外卖被辣哭,问我要索赔? ', '')
- # 去掉标题中不需要的文字
- # 使用CSS选择器提取小说的所有段落内容
- content_list = selector.css('div.noveContent p::text').getall()
- # 将所有段落内容合并成一段长文本
- content = '\n'.join(content_list)
- # 打印提取到的小说标题和内容
- print(title)
- print(content)
- # 将标题和内容写入到本地文件中
- with open('偷吃我外卖被辣哭,问我要索赔?' + '.txt', mode='a', encoding='utf-8') as f:
- # 写入标题
- f.write(title)
- # 换行
- f.write('\n')
- # 写入内容
- f.write(content)
- # 再次换行,为了区分不同章节
- f.write('\n')
![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)
结果展示,小说文本以txt格式保存
- import requests # 导入数据请求模块
- import re # 导入正则
- import json # 导入json
- # 请求链接
- url = 'https://www.zhihu.com/question/584206512'
- # 伪装浏览器
- headers = {
- 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
- }
- # 发送GET请求到知乎的问题页面
- response = requests.get(url=url, headers=headers)
- # 问题标题
- title = re.findall('<title data-rh="true">(.*?)</title>', response.text)[0] # 使用正则表达式从返回的HTML中查找问题标题
- # 答案内容
- html_data = re.findall('<script id="js-initialData" type="text/json">(.*?)</script', response.text)[0] # 使用正则表达式查找包含答案内容的JSON字符串
- # 字符串转成字典
- json_data = json.loads(html_data) # 将JSON字符串解析为Python字典
- json_dict = json_data['initialState']['entities']['answers'] # 定位到答案所在的JSON字典部分
- for i in json_dict.keys():
- # 答案内容
- content = json_dict[i]['excerpt']
- # 答题者用户名
- name = json_dict[i]['author']['name']
- with open(title + '.txt', mode='a', encoding='utf-8')as f: # 以追加模式打开文件(如果文件不存在则创建),将答案内容写入文件
- f.write(f'网友 "{name}" 回答: {content}\n')
- print(content)
![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)
结果展示,文件名是问题,内容是回答,以txt保存
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。