赞
踩
抓取豆瓣影评评分
正常的抓取
分析请求的url
https://movie.douban.com/subject/26322642/comments?start=20&limit=20&sort=new_score&status=P&percent_type=
里面有用的也就是start和limit参数,我尝试过修改limit参数,但是没有效果,可以认为是默认的
start参数是用来设置从第几条数据开始查询的
设计查询列表,发现页面中有url中的查询部分,且指向下一个页面
于是采用下面的代码进行判断是否还有下一个页面
if next_url:
visit_URL('https://movie.douban.com/subject/24753477/comments'+next_url)
用requests发送请求,beautifulsoup进行网页解析
把数据写入txt
import requests
from bs4 import BeautifulSoup
first_url = 'https://movie.douban.com/subject/26322642/comments?status=P'
# 请求头部
headers = {
'Host':'movie.douban.com',
'Referer':&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。