赞
踩
又是新的一年,让我们一起来看一下刚刚过去的2018留下了哪些经典影片吧!
# 访问页面
def get_page(url, headers):
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
# 获得每个电源详细页链接
def get_film_url(html):
soup = BeautifulSoup(html, 'html.parser')
film_href = soup.find_all(class_='channel-detail movie-item-title')
film_url = []
for href in film_href:
film_url.append('https://maoyan.com' + href.select('a')[0]['href'])
return film_url
在开发者工具中可以看到数字并没有像网页上正常显示出来,这是猫眼做了反爬虫处理
通过ctrl+f,输入font-face,可以看到一个字体文件,通过刷新发现,每次的字体文件都是不一样的
详细的反破解原理我就不多说了,网上其他文章已经解释很多了,思路基本都是保存一份文件,手动识别里面的数字,以后遇到其他文件时再进行比对,这里贴上我参考的几位大佬的链接:
破解代码用的就是这篇文章里面的:https://mp.weixin.qq.com/s/n7GG8sW3aadf8o2laC3KNg
知乎大佬的文章:https://zhuanlan.zhihu.com/p/33112359
讲一下具体步骤吧:
def get_numbers(html_response):
"""
对猫眼的文字反爬进行破解
"""
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。