爬虫进阶实战(selinum爬取淘宝商品类目)

作者：代码探险家 | 2024-08-12 13:50:59

踩

selinum

前言

这个单子给我深刻的教训就是不要随便接软件开发的活。因为软件开发的话需求就太多了，给我整的心力交瘁的。它不像单纯的数据爬取任务，人甲方只要你数据准确全面即可。

而且最重要的是，他么的最后他不满意，然后尾款没结。

项目需求

这个单子标价800。需求也比较常见，爬淘宝的SKU，要求就是输入商铺链接，爬取下所有的SKU，还要求促销价。并且要求做一个界面出来。我用PyQt5做了个大致如下的界面。

功能演示如下：

QQ录屏20230626151832.gif

这个任务的要去爬出来指定淘宝或天猫链接内sku的价格和优惠价格，这个爬虫最常用的就是selinum直接爬下来。

一、下载seleinum的谷歌webdriver驱动

首先查看自己的谷歌浏览器的版本

在chromedriver.storage.googleapis.com找对应版本的webdriver.放在你的工程目录中就行。

二、selenium绕过淘宝的身份验证

这里我尝试了N多方法，但是能够稳定通过的还是得靠手动扫码通过。这个绕过去的方法应该是有优化的，但是我尝试了我查到的方法全部没成功哈。

可能这也是老板没结尾款的原因吧，但我真心觉得加个扫码的步骤也不是多麻烦的事，毕竟是单独对应一个链接操作一次的嘛。

实现方法也比较简单，打开做个60秒的延迟判定，主要就是给你扫码留一段时间。

browser = webdriver.Chrome()
browser.implicitly_wait(60)
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument",
                       {"source": """Object.defineProperty(navigator, 'webdriv1
2
3

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/970091