赞
踩
要使用Scrapy和Selenium爬取淘宝商品信息,首先需要安装这两个库。可以使用以下命令进行安装:
bash复制代码运行
pip install scrapy pip install selenium
接下来,创建一个Scrapy项目:
scrapy startproject taobao_spider
然后,在项目中创建一个爬虫:
cd taobao_spider scrapy genspider taobao www.taobao.com
接下来,编辑taobao_spider/spiders/taobao.py
文件,使用Selenium和Scrapy结合爬取淘宝商品信息:
import scrapy from selenium import webdriver from scrapy.selector import Selector from time import sleep class TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['www.taobao.com'] start_urls = ['https://www.taobao.com/'] def __init__(self): self.driver = webdriver.Chrome(executable_path='path/to/chromedriver') def parse(self, response): self.driver.get(response.url) sleep(3) # 在这里添加搜索关键词,例如:手机 self.driver.find_element_by_id('q').send_keys('手机') self.driver.find_element_by_class_name('btn-search').click() sleep(3) html = self.driver.page_source sel = Selector(text=html) items = sel.xpath('//div[@class="item J_MouserOnverReq"]') for item in items: yield { 'title': item.xpath('.//img/@alt').extract_first(), 'price': item.xpath('.//strong/text()').extract_first(), 'shop': item.xpath('.//div[@class="shop"]/a/span[2]/text()').extract_first(), } self.driver.quit()
注意将path/to/chromedriver
替换为实际的chromedriver路径。
最后,运行爬虫:
scrapy crawl taobao
这样,就可以使用Scrapy和Selenium爬取淘宝商品信息了。
Taobao.item_get-获得淘宝商品详情数据接口返回值说明
1.请求方式:HTTP POST GET; 复制Taobaoapi2014获取APISDK文件。
2.请求URL:c0b.cc/R4rbK2 获取API 测试账号。
3.请求参数:
请求参数:num_iid=652874751412&is_promotion=1
参数说明:num_iid:淘宝商品ID
is_promotion:是否获取取促销价
4.请求示例
- 请求示例 url 默认请求参数已经URL编码处理
- curl -i "https://api-gw.xxx.cn/taobao/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=652874751412&is_promotion=1"
5.返回参数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。