当前位置:   article > 正文

scrapy+selenium爬取淘宝商品信息_scrapy爬取淘宝商品数据

scrapy爬取淘宝商品数据

要使用Scrapy和Selenium爬取淘宝商品信息,首先需要安装这两个库。可以使用以下命令进行安装:

bash复制代码运行

pip install scrapy pip install selenium

接下来,创建一个Scrapy项目:

scrapy startproject taobao_spider

然后,在项目中创建一个爬虫:

cd taobao_spider scrapy genspider taobao www.taobao.com

接下来,编辑taobao_spider/spiders/taobao.py文件,使用Selenium和Scrapy结合爬取淘宝商品信息:

import scrapy from selenium import webdriver from scrapy.selector import Selector from time import sleep class TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['www.taobao.com'] start_urls = ['https://www.taobao.com/'] def __init__(self): self.driver = webdriver.Chrome(executable_path='path/to/chromedriver') def parse(self, response): self.driver.get(response.url) sleep(3) # 在这里添加搜索关键词,例如:手机 self.driver.find_element_by_id('q').send_keys('手机') self.driver.find_element_by_class_name('btn-search').click() sleep(3) html = self.driver.page_source sel = Selector(text=html) items = sel.xpath('//div[@class="item J_MouserOnverReq"]') for item in items: yield { 'title': item.xpath('.//img/@alt').extract_first(), 'price': item.xpath('.//strong/text()').extract_first(), 'shop': item.xpath('.//div[@class="shop"]/a/span[2]/text()').extract_first(), } self.driver.quit()

注意将path/to/chromedriver替换为实际的chromedriver路径。

最后,运行爬虫:

scrapy crawl taobao

这样,就可以使用Scrapy和Selenium爬取淘宝商品信息了。

Taobao.item_get-获得淘宝商品详情数据接口返回值说明

1.请求方式:HTTP POST GET; 复制Taobaoapi2014获取APISDK文件。

2.请求URL:c0b.cc/R4rbK2 获取API 测试账号。

3.请求参数:

请求参数:num_iid=652874751412&is_promotion=1

参数说明:num_iid:淘宝商品ID
is_promotion:是否获取取促销价

4.请求示例

  1. 请求示例 url 默认请求参数已经URL编码处理
  2. curl -i "https://api-gw.xxx.cn/taobao/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=652874751412&is_promotion=1"

 5.返回参数

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/705195
推荐阅读
相关标签
  

闽ICP备14008679号