当前位置:   article > 正文

【Scrapy框架(一)】爬取豆瓣电影_scrapy 爬取电影

scrapy 爬取电影

爬虫入门之后一定要掌握的就是scrapy框架。这个框架不仅本身就是基于twisted进行异步爬取,而且还有很强的拓展性、灵活性,后期进行商业性质的爬取可以部署分布式爬取。

scrapy框架核心部分不过四个

  • spider
  • settings
  • pipeline
  • items

当然,在熟练使用后middleware也是要掌握的。

今天用最简单的代码爬取一下豆瓣电影

 

 

命令行startproject 以及genspider这里不做赘述,直接进入爬虫project文件中写代码。

首先在items.py中声明爬取的item,也就是我们爬取的目标内容。

本次我们爬取的内容为

  • 电影名(title)
  • 分数
  • 时长
  • 导演
  • 演员
  1. import scrapy
  2. class DbreyingItem(scrapy.Item):
  3. # define the field
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/141376
推荐阅读
相关标签
  

闽ICP备14008679号