赞
踩
1.框架图
2.组件
3.开发流程
1、创建一个项目
2、将scrapy项目放到pycharm,目录结构如下:
如果不按上面的方式,运行命令会发生找不到命令的情况。
3、创建一个spider
4、在settings.py中,修改robots协议
5.在新建好的spider中,初始化start_urls列表,告诉scrapy要下载的网页有哪些?
6、添加请求,请求头需要在settings.py配置文件中设置。
7、在spider文件中的parse方法里测试是否能够获取到页面数据。
Scrapy的启动方法:scrapy crawl maoyan_spider
8.在items.py中,定义我们要爬取的字段是那些。
9、在parse方法中实例化一个item
10、从页面提取数据。
补充:
Response.xpath返回的就是一个selector对象,selector 对象可以继续调用xpath方法提取元素。
可以通过以下两个方法,从selector对象中获取字符串内容。
extract_first()--相
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。