python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

作者：小小林熬夜学编程 | 2024-05-20 21:58:48

踩

.shtml 爬虫

一、爬取新浪新闻思路

1、创建scrapy项目

2、分析新浪新闻网站静态页面代码

3、编写对应的xpath公式

4、写代码

二、项目代码

步骤1、创建scrapy项目

scrapy startproject mycwpjt

步骤2、分析新浪网站静态代码

随便打开一个新浪新闻网，新闻

可以看到地址为

http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622.shtml

点开其他新闻也为.shtml结尾

那么我们可以考虑从新浪首页，针对性爬取后缀为.shtml的网页

步骤3、编写对应的xpath公式

在html的页面head中可以看到标题在title中

新时代去奋斗|新时代|奋斗|改革_新浪新闻

当前页面的链接在meta中

由此可以写出xpath为

标题：/html/head/title/text()

链接: //meta[@property='og:url']/@content

步骤4、编写代码

创建爬虫文件

scrapy genspider -t crawl bangbing sina.com.cn

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/599522