赞
踩
当爬取博文内容时,有时需要进行些基础信息分析采取不同的处理措施,例如根据博文的点赞数和评论数分析是否热门博文,本节介绍爬取CSDN的博文后分析博文的基础信息,包括文章标题、内容、博主名、阅读数量、收藏数量、点赞数量、评论数量、文章长度、是否原创、发表日期、是否付费专栏等。
要获取博文的基本信息,首先要了解博文的信息构成,然后获取文章的内容,根据博文的信息解析相关信息。本文的内容仅为前面相关章节的知识应用,而博文的内容构成只能作为参考,因为CSDN不停的在改版,最近两年就改版了几次,具体的应该以爬取时的博文内容为准。另外老猿对相关内容的解析方法也只是很多可能的一种,未必最优,大家可以根据自己的理解进行调整。
以《https://blog.csdn.net/LaoYuanPython/article/details/113055084 Python爬虫入门3:使用google浏览器获取网站访问的http信息》的方法获取老猿的博文《
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。