当前位置:   article > 正文

Python爬取豆瓣电影top250

Python爬取豆瓣电影top250

1.准备工作

1.1、安装Python

2.1建立jupyter环境

window+R,输入cmd,进入控制台

pip install jupyter
  • 1

在这里插入图片描述

3.1进入编辑环境

新建一个文件夹,打开文件夹,进入控制台,输入jupyter notebook,即进入编辑环境。
在这里插入图片描述
进入编辑环境页面
在这里插入图片描述

2.分析网页

2.1 打开豆瓣电影top250网页

在这里插入图片描述

2.2 分析网页结构

查看每一页网页的url,分析它的规律
在这里插入图片描述
可以看出,从第二页开始,URL不同的都是’start='后面这个数,并且基数都为25。则可以分析出第一页为:https://movie.douban.com/top250?start=0&filter=

2.3 用for循环分析结果

也可用for循环来分析,结果如下:

	for page in range(0,226,25):
    print (page)
  • 1
  • 2

在这里插入图片描述

2.4 用page函数表示这十页的URL链接

代码如下:

for page in range(0,226,25):
    url= 'https://movie.douban.com/top250?start=%s&filter='%page
    print (url)
  • 1
  • 2
  • 3

结果如下:
在这里插入图片描述

3.爬取网页

3.1 请求HTML源代码

首先,安装requests,(win+R—输入cmd—pip install requests—enter),结果如下:
在这里插入图片描述
请求HTML以第一页为例:

import requests
test_url='https://movie.douban.com/top250?start=0&filter='
  • 1
  • 2

注:此处单引号也可以改为双引号,目的是将test_url变为字符串。

3.2 到TOP250上对代码进行审查

右击—检查元素—network—All—刷新,打开如下:
在这里插入图片描述

3.3 请求网页及请求方法

首先点击第一个网址,再点击header,由图中可以知道请求网址及方法:
在这里插入图片描述
代码如下:

import requests
test_url='https://movie.douban.com/top250?start=0&filter='
requests.get(url=test_url)
  • 1
  • 2
  • 3

结果如下:
在这里插入图片描述
若改为:

import requests
test_url='https://movie.douban.com/top250?start=0&filter='
requests.get(url=test_url).text
  • 1
  • 2
  • 3

同样没有返回值。
则是因为浏览器识别出这个语句为爬虫程序,所以拒绝返回值给我们。

3.4 伪装浏览器

伪装浏览器主要是用来躲过浏览器识别,便于成功获取数据。
首先将代码审查中的用户代理复制到请求代码中,用于伪装。
用户代理为:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36
  • 1

代码表示如下:

import requests
test_url='https://movie.douban.com/top250?start=0&filter='

#设置浏览器代理,它是一个字典
headers={
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36'
}
#请求源代码向服务器发出请求
requests.get(url=test_url,headers = headers).text
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

结果如下:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/191197
推荐阅读
相关标签
  

闽ICP备14008679号