赞
踩
在上一文中我们使用pycharm创建了一个scrapy项目, 并使用命令初始化了一个scrapy模板。 这一文中我们就让这个scrapy爬虫脚本运行起来。
直接右击创建就可以。这个py文件的名称可以自定义。
# execute 可以调用scrapy的执行脚本
from scrapy.cmdline import execute
import sys
import os
# os.path.abspath(__file__) 获取当前文件所在的路径
# os.path.dirname(os.path.abspath(__file__)) 获取当前文件所在的父目录
# 设置执行路径
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# 设置执行命令
execute(["scrapy", "crawl", "cnblogNews"])
原来是true,现在改为False.
下面是摘自百度的robots协议的解释
robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
在main.py中,右击运行就可以了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。