赞
踩
爬虫入门之后一定要掌握的就是scrapy框架。这个框架不仅本身就是基于twisted进行异步爬取,而且还有很强的拓展性、灵活性,后期进行商业性质的爬取可以部署分布式爬取。
scrapy框架核心部分不过四个
当然,在熟练使用后middleware也是要掌握的。
今天用最简单的代码爬取一下豆瓣电影
命令行startproject 以及genspider这里不做赘述,直接进入爬虫project文件中写代码。
首先在items.py中声明爬取的item,也就是我们爬取的目标内容。
本次我们爬取的内容为
- import scrapy
-
-
- class DbreyingItem(scrapy.Item):
- # define the field
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。