爬虫学习——20.Scrapy框架（2）入门

作者：正经夜光杯 | 2024-07-26 12:29:41

踩

Scrapy入门

前提:路径切换 cd copy path 复制绝对路径

1. 创建scrapy项目
scrapy startproject mySpider
scrapy startproject(固定的)
mySpider(不固定的需要创建的项目的名字)

2. 进入项目里面：cd mySpider

3. 创建爬虫程序
scrapy genspider example example.com

scrapy genspider：固定的
example：爬虫程序的名字(不固定的)
example.com：可以允许爬取的范围(不固定的) 是根据你的目标url来指定的其实很重要后面是可以修改的

目标url：https://www.baidu.com/

scrapy genspider bd baidu.com

4. 执行爬虫程序
scrapy crawl bd
scrapy crawl：固定的
db：执行的爬虫程序的名字

可以通过start.py文件执行爬虫项目：
from scrapy import cmdline
cmdline.execute("scrapy crawl bd".split())

Scrapy文件说明

baidu.py爬虫文件
# 爬虫程序的名字
name = 'bd'
# 可以爬取的范围
# 有可能我们在实际进行爬取的时候第一页可能是xxx.com 第三页可能就变成了xxx.cn
# 或者xxx.yy 那么可能就会爬取不到数据
# 所以我们需要对allowed_domains进行一个列表的添加
allowed_domains = ['baidu.com']
# 起始url地址会根据我们的allowed_domains对网页前缀进行一定的补全
# 但有时候补全的url不对所以我们也要去对他进行修改
start_urls = ['https://www.baidu.com/']

# 专门用于解析数据的
def parse(self, response):

items.py 数据封装的
middlewares.py 中间件(爬虫中间件和下载中间件)
pipelines.py 管道(保存数据的)

settings.py Scrapy的配置项

# 1 自动生成的配置，无需关注，不用修改
BOT_NAME = 'mySpider'
SPIDER_MODULES = ['mySpider.spiders']
NEWSPIDER_MODULE = 'mySpider.spiders'

# 2 取消日志
LOG_LEVEL = 'WARNING'

# 3 设置UA，但不常用，一般都是在MiddleWare中添加
USER_AGENT = 'mySpider (+http://www.yourdomain.com)'

# 4 遵循robots.txt中的爬虫规则，很多人喜欢False，当然我也喜欢....
ROBOTSTXT_OBEY = True

# 5 对网站并发请求总数，默认16
CONCURRENT_REQUESTS = 32

# 6 相同网站两个请求之间的间隔时间，默认是0s。相当于time.sleep()
DOWNLOAD_DELAY = 3

# 7 禁用cookie，默认是True，启用
COOKIES_ENABLED = False

# 8 默认的请求头设置
DEFAULT_REQUEST_HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}

# 9 配置启用爬虫中间件，Key是class，Value是优先级
SPIDER_MIDDLEWARES = {
'mySpider.middlewares.MyspiderSpiderMiddleware': 543,
}

# 10 配置启用Downloader MiddleWares下载中间件
DOWNLOADER_MIDDLEWARES = {
'mySpider.middlewares.MyspiderDownloaderMiddleware': 543,
}

# 11 开启管道配置启用Pipeline用来持久化数据
ITEM_PIPELINES = {
'mySpider.pipelines.MyspiderPipeline': 300,
}

Scrapy总结

scrapy其实就是把我们平时写的爬虫进行了四分五裂式的改造. 对每个功能进行了单独的封装, 并且, 各个模块之间互相的不做依赖. 一切都由引擎进行调配. 这种思想希望你能知道–解耦. 让模块与模块之间的关联性更加的松散. 这样我们如果希望替换某一模块的时候会非常的容易. 对其他模块也不会产生任何的影响。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/885237