赞
踩
1,准备pycharm开发工具
2,安装对应的依赖 Scrapy
二,使用scrapy startproject 创建项目
项目创建好之后如下图
三,在项目的spiders目录下创建爬虫
1,先切换目录
2,创建爬虫
爬虫创建成功之后效果如下
三,配置文件
1,配置settings文件
1)把 ROBOTSTXT_OBEY=True改成ROBOTSTXT_OBEY=False
2)去掉管道配置得注释
3)修改默认请求头
2,在items.py文件中添加需要爬取的内容
3,编写爬虫bookTest.py代码
import scrapy from ..items import BookItem class BooktestSpider(scrapy.Spider): name = 'bookTest' allowed_domains = ['book.douban.com'] start_urls = [] base_url = [] # 爬取前10页 i = 0 j = 10 while i < j: base_url += ['https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start='+str(i*20)+'&type=T'] i += 1 start_urls = base_url def parse(self, response): lies = response.xpath('//ul[@class="subject-list"]/li') for li in lies: bookname = li.xpath(".//div[@class='info']//a/@title").extract_first() author = li.xpath(".//div[@class='pub']/text()").extract_first() jj = li.xpath(".//p/text()").extract_first() item = BookItem() item['bookname'] = bookname item['author'] = author item['jj'] = jj yield item
4,编写管道代码保存数据
四,最后执行爬虫
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。