当前位置:   article > 正文

华为鸿蒙的问题,采集知乎上关于华为鸿蒙的问题和回答

鸿蒙基站采集

知乎作为一个知识问答和分享的平台,每当有热点事件发生,上面都会有一些精辟言论,有助于我们快速了解事件的一些情况。我们想要研究华为鸿蒙发布以来的讨论热点,就选取从知乎上收集数据。

采集数据就用到了集搜客的快捷采集应用,这里会用到三个应用“知乎_关键词搜索结果列表_内容”、“知乎_独立问题所有回复采集”和“知乎_专栏文章详情”,下面介绍一下操作。

1.找到数据网址,用集搜客爬虫采集数据

首先要找出关于鸿蒙的问题,在知乎的综合版块上搜索“鸿蒙”,拷贝搜索网址

https://www.zhihu.com/search?type=content&q=%E5%8D%8E%E4%B8%BA%E9%B8%BF%E8%92%99

把网址添加到集搜客的快捷采集“知乎_关键词搜索结果列表_内容”,启动爬虫采集。

a0c6003663a3fab344ced5978ba7877b.png

导出数据,采到的数据里不仅有问答类的,还有专栏文章,这两种网页结构不同,所以下一步,要分别对问题的每一个回答内容和专栏文章做采集。

8918130374c9caf8d59643e9d9e69551.png

从上表的“详情链接”列拷贝出带有question的问答网址,添加到快捷采集“知乎_独立问题所有回复采集”;再从“实际链接”列筛选出带有zhuanlan的专栏网址,添加到“知乎_专栏文章详情”,然后启动采集。

9c46f9a97e76afd62b3ddb13855d76a3.png

3cd656daf5273967ee9c388ab16f0863.png

考虑到样本数据的完整性,我们会把问答类数据和专栏文章放一起分析。首先要把数据导出来,后面会把数据导入到集搜客的分词检索系统进行分词处理和分类,所以需要按照它要求的Excel表字段进行规整。

2.数据汇总

问答数据中,问题和回答是一对多的数据关系,需要把标题、回答用户、用户一句话介绍这3列合并到新的标题列里,再删掉原来的3列;专栏文章虽然不是一对多关系,但是也有这3列字段,所以要做同样的处理。

c1fff8e4bf4e476c88aa2a4646f40942.png

把问答数据和专栏文章的数据,拷贝汇总到一张新表里。按要求修改列名,再增加“序号”列,让数字自增填充,这一列会非常有用,可以用它来关联分词数据表和分类数据表;还要增加“网站来源”列,分别填“知乎问答”、“知乎专栏”加以区分。

9640c76d7d77855f9e04dead57c6044c.png

3.数据过滤处理

下面是对数据进行过滤。把“发布时间”列用替换功能,整理成统一的时间格式;再过滤掉鸿蒙发布以前的数据。

4c0c6b29ce0e96549686af97eb529391.png

cde81bc0a16445d523c33b9f1c816b06.png

“正文”的数据里有图片的一些代码,对分词可能会有影响,所以这里用替换功能把它过滤掉。

66e748d023643c1b9536713d5e098cff.png

62671168b1e4e7e865fee15733a5a5a4.png

过滤了图片代码后,发现有些数据的“正文”是空的,所以还要筛选出这些数据然后删除。

d734a5e34c151e216e5a2b2a8f45f586.png

最后是去重,选中几列,然后点“删除重复项”来过滤重复。经过以上的处理,最终汇总得到6208条数据。

47b7dd26d8493392974cb49b5028f493.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/488091
推荐阅读
相关标签
  

闽ICP备14008679号