当前位置:   article > 正文

python爬取数据-初级

python爬取数据-初级

爬虫的应用

一,准备环境

1,准备pycharm开发工具
2,安装对应的依赖 Scrapy
在这里插入图片描述
二,使用scrapy startproject 创建项目
在这里插入图片描述
项目创建好之后如下图
在这里插入图片描述
三,在项目的spiders目录下创建爬虫
1,先切换目录
在这里插入图片描述
2,创建爬虫
在这里插入图片描述
爬虫创建成功之后效果如下
在这里插入图片描述
三,配置文件
1,配置settings文件
1)把 ROBOTSTXT_OBEY=True改成ROBOTSTXT_OBEY=False
2)去掉管道配置得注释
在这里插入图片描述
3)修改默认请求头
在这里插入图片描述
2,在items.py文件中添加需要爬取的内容
在这里插入图片描述
3,编写爬虫bookTest.py代码

import scrapy

from ..items import BookItem


class BooktestSpider(scrapy.Spider):
    name = 'bookTest'
    allowed_domains = ['book.douban.com']
    start_urls = []
    base_url = []
    # 爬取前10页
    i = 0
    j = 10
    while i < j:
        base_url += ['https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start='+str(i*20)+'&type=T']
        i += 1
    start_urls = base_url

    def parse(self, response):
        lies = response.xpath('//ul[@class="subject-list"]/li')
        for li in lies:
            bookname = li.xpath(".//div[@class='info']//a/@title").extract_first()
            author = li.xpath(".//div[@class='pub']/text()").extract_first()
            jj = li.xpath(".//p/text()").extract_first()
            item = BookItem()
            item['bookname'] = bookname
            item['author'] = author
            item['jj'] = jj
            yield item
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29

4,编写管道代码保存数据
在这里插入图片描述
四,最后执行爬虫
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/918819
推荐阅读
相关标签
  

闽ICP备14008679号