当前位置:   article > 正文

Python爬取数据分析_header = { 'origin':

header = { 'origin':

一.python爬虫使用的模块

  1.import requests

  2.from bs4 import BeautifulSoup

  3.pandas 数据分析高级接口模块

二. 爬取数据在第一个请求中时, 使用BeautifulSoup  

import requests
# 引用requests库
from bs4 import BeautifulSoup
# 引用BeautifulSoup库
res_movies = requests.get('https://movie.douban.com/chart')
# 获取数据
bs_movies = BeautifulSoup(res_movies.text,'html.parser')
# 解析数据
list_movies= bs_movies.find_all('div',class_='pl2')
# 查找最小父级标签
list_all = []
# 创建一个空列表,用于存储信息
for movie in list_movies:
    tag_a = movie.find('a')
    # 提取第0个父级标签中的<a>标签
    name = tag_a.text.replace(' ', '').replace('\n', '')
    # 电影名,使用replace方法去掉多余的空格及换行符
    url = tag_a['href']
    # 电影详情页的链接
    tag_p = movie.find('p', class_=
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/109056
推荐阅读
相关标签
  

闽ICP备14008679号