当前位置:   article > 正文

python爬虫项目——豆瓣Top250

python爬虫项目——豆瓣Top250

我们今天讲一个爬虫项目案例,实现对豆瓣电影top榜的爬取 。把爬取的数据存到我们电脑本地文件当中。通过这个项目可以让我们真正感受到爬虫的带给我们的乐趣。现在我来讲一下思路以及实现方法,因为豆瓣电影的这个反爬机制不高,所以我们可以通过这个案列快速上手,感受爬虫的乐趣!!!!

我们主要思路是爬取豆瓣电影Top250页面上的电影名称和评分,并将它们存储到本地文件或Excel文件中。
具体步骤如下:

发送HTTP请求获取豆瓣电影Top250页面的HTML内容。
使用BeautifulSoup库对HTML内容进行解析,获取每部电影的名称和评分。
将每部电影的名称和评分存储到一个列表中。
使用pandas库将列表中的数据存储到本地文件或Excel文件中。

在这个过程中,我们使用了以下模型和方法:
requests模块:用于发送HTTP请求获取网页内容。
 

BeautifulSoup库:用于解析HTML内容,提取所需的信息。
 

pandas库:用于将数据存储到本地文件或Excel文件中。

不多说 直接上代码,代码里我加上了最详细的步骤,看不懂,评论区告诉我!!!

  1. import requests # 导入requests模块,用于发送HTTP请求
  2. from bs4 import BeautifulSoup # 导入BeautifulSoup库,用于解析HTML
  3. import pandas as pd # 导入pandas库,用于数据处理
  4. url = 'https://movie.douban.com/top250' # 定义要爬取的网页URL
  5. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 定义HTTP请求头部信息,模拟浏览器行为
  6. response = requests.get(url, headers=headers) # 发送HTTP请求,获取网页内容
  7. soup = BeautifulSoup(response.text, 'html.parser') # 使用BeautifulSoup库解析HTML内容
  8. movies = soup.find_all('div', class_='info') # 获取所有电影信息块
  9. movie_list = [] # 定义一个空列表,用于存储电影名称和评分
  10. for movie in movies:
  11. title = movie.find('span', class_='title').get_text() # 获取电影名称
  12. rating = movie.find('span', class_='rating_num').get_text() # 获取电影评分
  13. movie_list.append((title, rating)) # 将电影名称和评分添加到列表中
  14. df = pd.DataFrame(movie_list, columns=['电影名称', '评分']) # 将列表转换为DataFrame格式,指定列名
  15. df.to_excel('douban_top50.xlsx', index=False) # 将DataFrame存储到Excel文件中,不包括行索引

 

代码很少,所以还不赶快练起来!!!tips:要先导入我们要用的库哟!!!!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/488143
推荐阅读
相关标签
  

闽ICP备14008679号