当前位置:   article > 正文

CSDN社区编程语言信息抓取与统计

csdn社区

完整资料进入【数字空间】查看——搜索"writebug"

一、研究背景及主要内容
1.1 研究背景
中国专业 IT 社区 CSDN (Chinese Software Developer Network) 创立于 1999 年,致力于为中国软件开发者提供知识传播、在线学习、职业发展等全生命周期服务。CSDN APP 是开发者专属移动 APP,提供最新技术资讯、开发知识,助力开发者学习和成长,让技术交流更简单。CSDN Blog 是致力于为开发者打造专业技术写作、分享与交流平台,为技术人提供全面的资讯与知识交流互动。CSDN 技术论坛:全力为 IT 开发者打造分享技术心得、讨论技术话题的信息平台。CSDN 资源下载中心:为 IT 专业人士提供丰富全面、专业的技术资料分享、交流与下载服务。

在 CSDN 平台上,有丰富的软件相关知识,从入门级别的教学帖子,到大佬级别引起热议的内容,CSDN 上有内容广泛的代码知识,同时也有诸多开源的代码及项目工程。

1.2 研究内容
针对在 CSDN 上的搜索结果,进行存储和分析。其中存储采用列表格式,对每条搜索结果的标题、时间、作者、阅读量、点赞量、评论量以及标签进行存储,存储到 txt 文本文档中。对结果的分析包括关键词/热词词频排序、阅读量、点赞量和评论量的分级可视化统计以及排行榜,并且将结果同样存储到 txt 中。

二、开发环境
开发环境选取了 python 语言,安装了 matplotlib 等库,访问浏览器为 Chrome。

三、主要代码设计
3.1 搜索结果网页数据爬取与存储
3.1.1 访问搜索链接
由于我们的项目是爬取 csdn 上关于各个语言的帖子内容等,因此需要访问搜索链接。经分析,搜索链接里包含了搜索的内容和页码,因而我选择将这两部分用 %language% 与 %page% 进行填充,在实际访问时使用 replace 进行具体内容的替换。因而只需要预先在列表里输入好要获得的语言数据,再选定要爬取的页码,通过两层 for 循环即可。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/435545
推荐阅读
相关标签
  

闽ICP备14008679号