赞
踩
pip install scrapy
windows安装
windows安装步骤:
安装依赖项:Archived: Python Extension Packages for Windows - Christoph Gohlke (uci.edu)
安装wheel:Python分布工具,可以构建和安装wheel文件
pip install wheel
安装lxml:解析XML和HTML的Python库
pip install lxml
安装twisted:用于网络编程的的事件驱动框架
# 先直接安装试试,不行再指定版本
pip install Twisted
pip install Twisted-版本号-python版本-python版本-系统.whl
安装scrapy
pip install scrapy
验证安装
scrapy version
官网:https://docs.scrapy.org/en/latest/topics/commands.html
查看全部可用命令的帮助信息,或指定命令的详细信息
# 全部命令
scrapy -h
# 指定命令详细信息
scrapy 命令 -h
startproject:创建一个新的Scrapy项目
genspider:创建一个新的爬虫程序
settings:显示一个Scrapy项目的配置信息
runspider:运行一个独立的Python文件作为爬虫,不需要创建项目
shell:进入Scrapy的交互式调试环境,可以检查选择器规则是否正确
fetch:单独请求一个界面,并获取响应结果
view:下载指定页面并在浏览器中打开,用于检查通过哪些请求获取数据
version:查看当前安装的Scrapy版本号
cd 创建的位置
scrapy startproject 项目名
cd 项目名
scrapy genspider 自定义爬虫程序文件名 目标网址
/robots.tx
t就可以查看当前网址的爬虫协议# Obey robots.txt rules
ROBOTSTXT_OBEY = False
DEBUG
、INFO
、WARNING
、ERROR
、CRITICAL
INFO
,可以提高到ERROR
,便于观察# 日志等级
LOG_LEVEL = "ERROR"
# 按照配置文件输出日志
scray crawl 自定义爬虫程序文件名
# 不输出日志文件
scray crawl 自定义爬虫程序文件名 --nolog
from scrapy.cmdline import execute
# 按照配置文件输出日志
execute(['scrapy', 'crawl', '自定义爬虫文件名'])
# 不输入日志
execute(['scrapy', 'crawl', '自定义爬虫程序文件名', "--nolog"])
CSS 选择器
选择器 | 例子 | 例子描述 |
---|---|---|
.class | .intro | 选择 class=“intro” 的所有元素。 |
.class1.class2 | .name1.name2 | 选择 class 属性中同时有 name1 和 name2 的所有元素。 |
.class1 .class2 | .name1 .name2 | 选择作为类名 name1 元素后代的所有类名 name2 元素。 |
#id | #firstname | 选择 id=“firstname” 的元素。 |
* | * | 选择所有元素。 |
element | p | 选择所有 元素。 |
element.class | p.intro | 选择 class=“intro” 的所有 元素。 |
element,element | div, p | 选择所有
元素和所有
元素。 |
element element | div p | 选择
元素内的所有
元素。 |
element>element | div > p | 选择父元素是
的所有
元素。 |
element+element | div + p | 选择紧跟
元素的首个
元素。 |
element1~element2 | p ~ ul | 选择前面有 元素的每个
|
[attribute] | [target] | 选择带有 target 属性的所有元素。 |
[attribute=value] | [target=_blank] | 选择带有 target=“_blank” 属性的所有元素。 |
[attribute~=value] | [title~=flower] | 选择 title 属性包含单词 “flower” 的所有元素。 |
[attribute|=value] | [lang|=en] | 选择 lang 属性值以 “en” 开头的所有元素。 |
[attribute^=value] | a[href^=“https”] | 选择其 src 属性值以 “https” 开头的每个 元素。 |
[attribute$=value] | a[href$=“.pdf”] | 选择其 src 属性以 “.pdf” 结尾的所有 元素。 |
[attribute*=value] | a[href*=“w3school”] | 选择其 href 属性值中包含 “abc” 子串的每个 元素。 |
:active | a:active | 选择活动链接。 |
::after | p::after | 在每个 的内容之后插入内容。 |
::before | p::before | 在每个 的内容之前插入内容。 |
:checked | input:checked | 选择每个被选中的 元素。 |
:default | input:default | 选择默认的 元素。 |
:disabled | input:disabled | 选择每个被禁用的 元素。 |
:empty | p:empty | 选择没有子元素的每个 元素(包括文本节点)。 |
:enabled | input:enabled | 选择每个启用的 元素。 |
:first-child | p:first-child | 选择属于父元素的第一个子元素的每个 元素。 |
::first-letter | p::first-letter | 选择每个 元素的首字母。 |
::first-line | p::first-line | 选择每个 元素的首行。 |
:first-of-type | p:first-of-type | 选择属于其父元素的首个 元素的每个 元素。 |
:focus | input:focus | 选择获得焦点的 input 元素。 |
:fullscreen | :fullscreen | 选择处于全屏模式的元素。 |
:hover | a:hover | 选择鼠标指针位于其上的链接。 |
:in-range | input:in-range | 选择其值在指定范围内的 input 元素。 |
:indeterminate | input:indeterminate | 选择处于不确定状态的 input 元素。 |
:invalid | input:invalid | 选择具有无效值的所有 input 元素。 |
:lang(language) | p:lang(it) | 选择 lang 属性等于 “it”(意大利)的每个 元素。 |
:last-child | p:last-child | 选择属于其父元素最后一个子元素每个 元素。 |
:last-of-type | p:last-of-type | 选择属于其父元素的最后 元素的每个 元素。 |
:link | a:link | 选择所有未访问过的链接。 |
:not(selector) | :not§ | 选择非 元素的每个元素。 |
:nth-child(n) | p:nth-child(2) | 选择属于其父元素的第二个子元素的每个 元素。 |
:nth-last-child(n) | p:nth-last-child(2) | 同上,从最后一个子元素开始计数。 |
:nth-of-type(n) | p:nth-of-type(2) | 选择属于其父元素第二个 元素的每个 元素。 |
:nth-last-of-type(n) | p:nth-last-of-type(2) | 同上,但是从最后一个子元素开始计数。 |
:only-of-type | p:only-of-type | 选择属于其父元素唯一的 元素的每个 元素。 |
:only-child | p:only-child | 选择属于其父元素的唯一子元素的每个 元素。 |
:optional | input:optional | 选择不带 “required” 属性的 input 元素。 |
:out-of-range | input:out-of-range | 选择值超出指定范围的 input 元素。 |
::placeholder | input::placeholder | 选择已规定 “placeholder” 属性的 input 元素。 |
:read-only | input:read-only | 选择已规定 “readonly” 属性的 input 元素。 |
:read-write | input:read-write | 选择未规定 “readonly” 属性的 input 元素。 |
:required | input:required | 选择已规定 “required” 属性的 input 元素。 |
:root | :root | 选择文档的根元素。 |
::selection | ::selection | 选择用户已选取的元素部分。 |
:target | #news:target | 选择当前活动的 #news 元素。 |
:valid | input:valid | 选择带有有效值的所有 input 元素。 |
:visited | a:visited | 选择所有已访问的链接。 |
# 列表
print(type(response.xpath('//div').extract()))
# 字符串
print(type(response.xpath('//div').extract()[-1]))
# 整个项目的名称 BOT_NAME = "scrapy_test" # 爬虫文件存放位置 SPIDER_MODULES = ["scrapy_test.spiders"] NEWSPIDER_MODULE = "scrapy_test.spiders" # 日志等级 LOG_LEVEL = "ERROR" # User-Agent设置 from fake_useragent import UserAgent USER_AGENT = UserAgent().random # 爬虫协议 ROBOTSTXT_OBEY = False # 同时发送的最大并发请求数量,过高可能对目标服务器带来过大压力 CONCURRENT_REQUESTS = 16 # 发送连续请求之间的延迟时间(单位秒),减少目标服务器负载 DOWNLOAD_DELAY = 3 # 针对域名,同时发送最大并发请求数 CONCURRENT_REQUESTS_PER_DOMAIN = 16 # 针对IP,同时发送最大并发请求数 CONCURRENT_REQUESTS_PER_IP = 16 # 是否使用cookie,关闭可以减少cpu使用率 COOKIES_ENABLED = False # 是否对失败的请求进行重新尝试 RETRY_ENABLED = False # 默认下载超时时间 DOWNLOAD_TIMEOUT = 180
# 默认请求头 DEFAULT_REQUEST_HEADERS = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language": "en", } # 爬虫中间件配置 SPIDER_MIDDLEWARES = { "scrapy_test.middlewares.ScrapyTestSpiderMiddleware": 543, } # 下载中间件配置 DOWNLOADER_MIDDLEWARES = { "scrapy_test.middlewares.ScrapyTestDownloaderMiddleware": 543, # } # 启用或禁用Scrapy扩展 EXTENSIONS = { "scrapy.extensions.telnet.TelnetConsole": None, } # 管道持久化配置 ITEM_PIPELINES = { "scrapy_test.pipelines.ScrapyTestPipeline": 300, }
# 启用或禁用自动节流功能
AUTOTHROTTLE_ENABLED = True
# 初始下载延迟,用于评估目标服务器的响应时间
AUTOTHROTTLE_START_DELAY = 5
# 最大下载延迟,单位秒
AUTOTHROTTLE_MAX_DELAY = 60
# 目标并发数,根据下载延迟进行调整,越接近1,会越严格遵守这个并发数
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# 是否启动节流功能日志
AUTOTHROTTLE_DEBUG = False
# 启用或禁用HTTP请求缓存功能
HTTPCACHE_ENABLED = True
# 缓存过期时间,0是永不过期
HTTPCACHE_EXPIRATION_SECS = 0
# 缓存数据存储的路径
HTTPCACHE_DIR = "httpcache"
# 一个不应被缓存的HTTp状态码列表
HTTPCACHE_IGNORE_HTTP_CODES = []
# 用于存储缓存的数据类
HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"
# 请求指纹算法的实现版本。这用于生成请求的唯一标识符,用于缓存和其他目的。
REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
# 用于Scrapy的Twisted事件循环反应器的类。这可以影响Scrapy的异步性能和兼容性。
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
# 导出数据时使用的字符编码。这通常用于控制导出文件的编码格式。
FEED_EXPORT_ENCODING = "utf-8"
# 是否启用Telnet控制台。Telnet控制台允许你通过telnet协议与正在运行的Scrapy爬虫进行交互,比如查看状态、暂停/恢复爬虫等。
TELNETCONSOLE_ENABLED = False
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。