赞
踩
完整资料进入【数字空间】查看——搜索"writebug"
一、研究背景及主要内容
1.1 研究背景
中国专业 IT 社区 CSDN (Chinese Software Developer Network) 创立于 1999 年,致力于为中国软件开发者提供知识传播、在线学习、职业发展等全生命周期服务。CSDN APP 是开发者专属移动 APP,提供最新技术资讯、开发知识,助力开发者学习和成长,让技术交流更简单。CSDN Blog 是致力于为开发者打造专业技术写作、分享与交流平台,为技术人提供全面的资讯与知识交流互动。CSDN 技术论坛:全力为 IT 开发者打造分享技术心得、讨论技术话题的信息平台。CSDN 资源下载中心:为 IT 专业人士提供丰富全面、专业的技术资料分享、交流与下载服务。
在 CSDN 平台上,有丰富的软件相关知识,从入门级别的教学帖子,到大佬级别引起热议的内容,CSDN 上有内容广泛的代码知识,同时也有诸多开源的代码及项目工程。
1.2 研究内容
针对在 CSDN 上的搜索结果,进行存储和分析。其中存储采用列表格式,对每条搜索结果的标题、时间、作者、阅读量、点赞量、评论量以及标签进行存储,存储到 txt 文本文档中。对结果的分析包括关键词/热词词频排序、阅读量、点赞量和评论量的分级可视化统计以及排行榜,并且将结果同样存储到 txt 中。
二、开发环境
开发环境选取了 python 语言,安装了 matplotlib 等库,访问浏览器为 Chrome。
三、主要代码设计
3.1 搜索结果网页数据爬取与存储
3.1.1 访问搜索链接
由于我们的项目是爬取 csdn 上关于各个语言的帖子内容等,因此需要访问搜索链接。经分析,搜索链接里包含了搜索的内容和页码,因而我选择将这两部分用 %language% 与 %page% 进行填充,在实际访问时使用 replace 进行具体内容的替换。因而只需要预先在列表里输入好要获得的语言数据,再选定要爬取的页码,通过两层 for 循环即可。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。