菜鸟追梦旅行

这个屌丝很懒，什么也没留下！

热门标签

python爬虫爬取豆瓣电影Top250，Python学习路线指南

作者：菜鸟追梦旅行 | 2024-04-26 00:54:58

踩

if res.status_code==200:

response=res.content.decode(“utf-8”)

return response

else:

return False

except:

return False

def parse_data(html,url):

#数据解析一些内容有的需要xpath 有的需要正则

html = etree.HTML(html)

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36’

}

res = requests.get(url=url, headers=headers)

response = res.content.decode(“utf-8”)

#电影名称

movie_title=html.xpath(“//div[@class=‘hd’]//a//span[1]//text()”)

#电影评分

movie_score=html.xpath(‘//div[@class=“star”]//span[2]//text()’)

#电影排名

movie_degree=html.xpath(‘//div[@class=“item”]//div//em//text()’)

#电影海报地址

movie_poster=html.xpath(‘//div[@class=“pic”]//a//img/@src’)

#导演,使用正则

movie_director = re.findall(r"导演:(.*?);", response)

a = “”.join(movie_director).split(“&nbsp”)#因为使用的正则抓取下来的字符串含有&nbsp，使用split()函数进行切分

movie_director = a[:25]

if movie_director==“”:

movie_director=“”

else:

movie_director=movie_director

#主演，使用正则

movie_main_act = re.findall(“主演: (.*)
”, response)

movie_main_act = “”.join(movie_main_act).split(“…”)

if movie_main_act==“”:

movie_main_act=“”

else:

movie_main_act=movie_main_act

#上映日期

movie_datatime= re.findall(r"(\d*) ", response)

b = “”.join(movie_datatime)#转化为字符串

movie_datatime = [b[i:i + 4] for i in range(0, len(b), 4)]#转换的字符串是一对数字如199419931994…,所以进行切分 4个一切就是年份

if movie_datatime==“”:

movie_datatime=“”

else:

movie_datatime=movie_datatime

#电影国家

movie_country= re.findall(" / (.*?) ", response)

#电影类型,这个原网页写的有点不好爬我看了网上其他的也都看不明白所以就

#自己用这样的方法写出来然后就匹配出来了，可定还有简便的方法，以后学习继续改进

movie_type= html.xpath(“//div[@class=‘bd’]/p/text()[2]”)

n = ‘’.join([’ ‘.join([i.strip() for i in price.strip().split(’\n’)]) for price in movie_type][::2]).split(“\xa0/\xa0”)#转换为字符串进行切分

#n 返回[‘1994’, ‘美国’, ‘犯罪剧情1993’, ‘中国大陆中国香港’, ‘剧情爱情同性1994’, ‘美国’, ‘剧情爱情1994’, ‘法国美国’, ‘剧情动作犯罪1997’, ‘意大利’, ‘剧情喜剧爱情战争1997’, ‘美国’, ‘剧情爱情灾难2001’, ‘日本’, ‘剧情动画奇幻1993’, ‘美国’, ‘剧情历史战争2010’, ‘美国英国’, ‘剧情科幻悬疑冒险2009’, ‘美国英国’, ‘剧情1998’, ‘意大利’, ‘剧情音乐1998’, ‘美国’, ‘剧情科幻2009’, ‘印度’, ‘剧情喜剧爱情歌舞2008’, ‘美国’, ‘科幻动画冒险2004’, ‘法国瑞士德国’, ‘剧情音乐2014’, ‘美国英国加拿大冰岛’, ‘剧情科幻冒险1995’, ‘中国香港中国大陆’, ‘喜剧爱情奇幻古装2011’, ‘韩国’, ‘剧情2016’, ‘美国’, ‘喜剧动画冒险2002’, ‘中国香港’, ‘剧情犯罪悬疑1988’, ‘日本’, ‘动画奇幻冒险1972’, ‘美国’, ‘剧情犯罪2006’, ‘美国’, ‘剧情传记家庭2010’, ‘美国’, ‘剧情喜剧爱情2011’, ‘法国’, ‘剧情喜剧’]

文末有福利领取哦~

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/488135