当前位置:   article > 正文

基于Python通过cookie对某芯片网站信息的获取_python爬取中国芯片发展数据

python爬取中国芯片发展数据

        本文中的那个名字皆用T网站来代替,本文的所有关键字已经全部替换,请审核高抬贵手。

        芯片大家都不陌生。在当今疫情下,显卡,车机的芯片产量锐减影响了不少人的购物需求(反正你也买不到),也让不少人重新认识了半导体行业。闲来无事,我们可以获取一下T网站的芯片库存和芯片信息。

        链接:https://www.xx.com.cn/zh-cn/die-wafer-services/products.html

 一、列表页请求分析

        进入页面,就能看到我们需求的信息了。

        但是,在页面请求完成之前,有一点点不对劲,就是页面的各个部份请求的速度是不一样的:

         所以啊,需要的数据,大概率不是简单的get请求,所以要进一步去看,特意在开发者模式—Fetch/XHR选项卡中有一个请求,返回值正好是我们需要的内容:        

         这一条链接返回了所有的数据,无需翻页,下面开始请求链接。

二、列表页请求 

        根据上面的链接,直接get请求,分析json即可,上代码:

  1. def getItemList():
  2. url = "https://www.xx.com.cn/selectiontool/paramdata/family/3658/results?lang=cn&output=json"
  3. headers = {
  4. 'authority': 'www.xx.com.cn',
  5. "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
  6. "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36",
  7. }
  8. res = getRes(url,headers,'','','GET')//自己写的请求方法
  9. nodes = res.json()['ParametricResults']
  10. for node in nodes:
  11. data = {}
  12. data["itemName"] = node["o3"] #名称
  13. data["inventory"] = node["p3318"] #库存
  14. data["price"] = node["p1130"]['multipair1']['l'] #价格
  15. data["infoUrl"] = f"https://www.xx.com.cn/product/cn/{node['o1']}"#详情URL

        分析上面的json,可知 o3 是商品名,p3318是库存,p1130里面的内容有一个带单位的价格,o1是型号,可凑出详情链接,下面是请求结果:

 三、详情页分析

        终于拿到详情页链接了,该获取剩下的内容了。

        打开开发者模式,没有额外的请求,只有一个包含内容的get请求。        

         那直接请求不就得了,上代码:

  1. def getItemInfo(url):
  2. logger.info(f'正在请求详情url-{url}')
  3. headers = {
  4. 'authority': 'www.xx.com.cn',
  5. 'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
  6. 'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36",
  7. 'referer':'https://www.xx.com.cn/product/cn/THS4541-DIE',
  8. }
  9. res = getRes(url, headers,'', '', 'GET')//自己写的请求方法
  10. content = res.content.decode('utf-8')

        但是发现,请求的详情页,跟开发者模式的预览怎么不太一样?

        我这里的第一反应就觉得,完了,这个需要cookie。

        继续分析,清屏开发者模式,清除cookie,再次访问详情链接,在All选项卡中,可以发现:

        本以为该请求一次的详情页链接请求了两次,两次中间还有一个xhr请求。

        预览

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/998609
推荐阅读
相关标签
  

闽ICP备14008679号