赞
踩
欢迎关注 『scrapy爬虫』 专栏,持续更新中
欢迎关注 『scrapy爬虫』 专栏,持续更新中
初学者一般从爬虫(Spider)开始,这里编写我们的爬虫代码.
Scrapy 框架的主要组成部分和结构:
pip install scrapy
scrapy -version
fetch:使用 Scrapy 下载器获取特定 URL 的内容,并将内容输出到标准输出或指定文件中。
genspider:根据预定义的模板生成新的爬虫文件,简化了创建新爬虫的过程。
runspider:运行一个独立的爬虫,无需创建一个完整的项目,适用于一次性的简单爬取任务。
settings:获取当前 Scrapy 项目的设置值,可以用来查看当前项目的配置信息。
shell:启动交互式的 Scrapy 控制台,方便开发者在其中测试和调试爬虫代码。
startproject:创建一个新的 Scrapy 项目,包括必要的目录结构和文件模板。
version:打印当前安装的 Scrapy 版本信息。
view:在浏览器中打开指定 URL,可以帮助开发者查看网页在 Scrapy 中的抓取结果。
scrapy startproject 英文项目名
scrapy startproject myscrapy
根据前面的提示cd到我们刚刚新建的项目文件夹
cd myscrapy
然后新建指定网页的爬虫项目
scrapy genspider 爬虫文件名 爬虫的url
scrapy genspider baidu baidu.com
在myscrapy\myscrapy\spiders
目录下可以看到我们刚刚新建的爬虫
其内容 start_urls = ["http://baidu.com/"]
对应前面的url
import scrapy
class BaiduSpider(scrapy.Spider):
name = "baidu"
allowed_domains = ["baidu.com"]
start_urls = ["http://baidu.com/"]
def parse(self, response):
pass
在pycharm中打开项目,并新建venv的虚拟环境,虚拟环境中再次安装scrapy
库,个人建议用虚拟环境可以保证项目的相对独立性.
最后的项目结构
scrapy.cfg
project/
__init__.py
items.py
pipelines.py
settings.py
middlewares.py
spiders/
__init__.py
spider1.py
spider2.py
...
import scrapy
class BaiduSpider(scrapy.Spider):
name = "baidu"
allowed_domains = ["baidu.com"]# 限制或允许访问的域名列表
start_urls = ["http://baidu.com/"] # 起始url
def parse(self, response):
pass
大家喜欢的话,给个 本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。