当前位置:   article > 正文

python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

.shtml 爬虫

一、爬取新浪新闻思路

1、创建scrapy项目

2、分析新浪新闻网站静态页面代码

3、编写对应的xpath公式

4、写代码

二、项目代码

步骤1、创建scrapy项目

scrapy startproject mycwpjt

步骤2、分析新浪网站静态代码

随便打开一个新浪新闻网,新闻

86f4c11e7a6229120487c2455b9b4932.png

可以看到地址为

http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622.shtml

点开其他新闻也为.shtml结尾

那么我们可以考虑从新浪首页,针对性爬取后缀为.shtml的网页

步骤3、编写对应的xpath公式

在html的页面head中可以看到标题在title中

新时代 去奋斗|新时代|奋斗|改革_新浪新闻

当前页面的链接在meta中

由此可以写出xpath为

标题:/html/head/title/text()

链接: //meta[@property='og:url']/@content

步骤4、编写代码

创建爬虫文件

scrapy genspider -t crawl bangbing sina.com.cn

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/599522
推荐阅读
相关标签
  

闽ICP备14008679号