当前位置:   article > 正文

python爬虫爬取豆瓣电影Top250,Python学习路线指南

python爬虫爬取豆瓣电影Top250,Python学习路线指南

if res.status_code==200:

response=res.content.decode(“utf-8”)

return response

else:

return False

except:

return False

def parse_data(html,url):

#数据解析一些内容有的需要xpath 有的需要正则

html = etree.HTML(html)

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36’

}

res = requests.get(url=url, headers=headers)

response = res.content.decode(“utf-8”)

#电影名称

movie_title=html.xpath(“//div[@class=‘hd’]//a//span[1]//text()”)

#电影评分

movie_score=html.xpath(‘//div[@class=“star”]//span[2]//text()’)

#电影排名

movie_degree=html.xpath(‘//div[@class=“item”]//div//em//text()’)

#电影海报地址

movie_poster=html.xpath(‘//div[@class=“pic”]//a//img/@src’)

#导演,使用正则

movie_director = re.findall(r"导演:(.*?);", response)

a = “”.join(movie_director).split(“&nbsp”)#因为使用的正则抓取下来的字符串含有&nbsp,使用split()函数进行切分

movie_director = a[:25]

if movie_director==“”:

movie_director=“”

else:

movie_director=movie_director

#主演,使用正则

movie_main_act = re.findall(“主演: (.*)
”, response)

movie_main_act = “”.join(movie_main_act).split(“…”)

if movie_main_act==“”:

movie_main_act=“”

else:

movie_main_act=movie_main_act

#上映日期

movie_datatime= re.findall(r"(\d*) ", response)

b = “”.join(movie_datatime)#转化为字符串

movie_datatime = [b[i:i + 4] for i in range(0, len(b), 4)]#转换的字符串是一对数字如199419931994…,所以进行切分 4个一切就是年份

if movie_datatime==“”:

movie_datatime=“”

else:

movie_datatime=movie_datatime

#电影国家

movie_country= re.findall(" / (.*?) ", response)

#电影类型,这个原网页写的有点不好爬 我看了网上其他的也都看不明白 所以就

#自己用这样的方法写出来 然后就匹配出来了,可定还有简便的方法 ,以后学习继续改进

movie_type= html.xpath(“//div[@class=‘bd’]/p/text()[2]”)

n = ‘’.join([’ ‘.join([i.strip() for i in price.strip().split(’\n’)]) for price in movie_type][::2]).split(“\xa0/\xa0”)#转换为字符串进行切分

#n 返回[‘1994’, ‘美国’, ‘犯罪 剧情1993’, ‘中国大陆 中国香港’, ‘剧情 爱情 同性1994’, ‘美国’, ‘剧情 爱情1994’, ‘法国 美国’, ‘剧情 动作 犯罪1997’, ‘意大利’, ‘剧情 喜剧 爱情 战争1997’, ‘美国’, ‘剧情 爱情 灾难2001’, ‘日本’, ‘剧情 动画 奇幻1993’, ‘美国’, ‘剧情 历史 战争2010’, ‘美国 英国’, ‘剧情 科幻 悬疑 冒险2009’, ‘美国 英国’, ‘剧情1998’, ‘意大利’, ‘剧情 音乐1998’, ‘美国’, ‘剧情 科幻2009’, ‘印度’, ‘剧情 喜剧 爱情 歌舞2008’, ‘美国’, ‘科幻 动画 冒险2004’, ‘法国 瑞士 德国’, ‘剧情 音乐2014’, ‘美国 英国 加拿大 冰岛’, ‘剧情 科幻 冒险1995’, ‘中国香港 中国大陆’, ‘喜剧 爱情 奇幻 古装2011’, ‘韩国’, ‘剧情2016’, ‘美国’, ‘喜剧 动画 冒险2002’, ‘中国香港’, ‘剧情 犯罪 悬疑1988’, ‘日本’, ‘动画 奇幻 冒险1972’, ‘美国’, ‘剧情 犯罪2006’, ‘美国’, ‘剧情 传记 家庭2010’, ‘美国’, ‘剧情 喜剧 爱情2011’, ‘法国’, ‘剧情 喜剧’]

文末有福利领取哦~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/488135
推荐阅读
相关标签