当前位置:   article > 正文

爬虫进阶实战(selinum爬取淘宝商品类目)

selinum

前言

这个单子给我深刻的教训就是不要随便接软件开发的活。因为软件开发的话需求就太多了,给我整的心力交瘁的。它不像单纯的数据爬取任务,人甲方只要你数据准确全面即可。

而且最重要的是,他么的最后他不满意,然后尾款没结。

项目需求

这个单子标价800。需求也比较常见,爬淘宝的SKU,要求就是输入商铺链接,爬取下所有的SKU,还要求促销价。并且要求做一个界面出来。我用PyQt5做了个大致如下的界面。

1687763728543.jpg

功能演示如下:

QQ录屏20230626151832.gif

这个任务的要去爬出来指定淘宝或天猫链接内sku的价格和优惠价格,这个爬虫最常用的就是selinum直接爬下来。

一、下载seleinum的谷歌webdriver驱动

首先查看自己的谷歌浏览器的版本

image.png

chromedriver.storage.googleapis.com找对应版本的webdriver.放在你的工程目录中就行。

image.png

二、selenium绕过淘宝的身份验证

这里我尝试了N多方法,但是能够稳定通过的还是得靠手动扫码通过。这个绕过去的方法应该是有优化的,但是我尝试了我查到的方法全部没成功哈。

可能这也是老板没结尾款的原因吧,但我真心觉得加个扫码的步骤也不是多麻烦的事,毕竟是单独对应一个链接操作一次的嘛。

实现方法也比较简单,打开做个60秒的延迟判定,主要就是给你扫码留一段时间。

browser = webdriver.Chrome()
browser.implicitly_wait(60)
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
                       {"source": """Object.defineProperty(navigator, 'webdriv
  • 1
  • 2
  • 3
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/970091
推荐阅读
相关标签
  

闽ICP备14008679号