花生_TL007

这个屌丝很懒，什么也没留下！

热门标签

【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“阳了“的评论数据_python可视化数据分析案例

作者：花生_TL007 | 2024-04-20 23:53:05

踩

python可视化数据分析案例

一、背景介绍

您好，我是 @马哥python说，一枚10年程序猿。

以前大家见面都问"吃了没"，最近大家见面都问"阳了没"，奈何疫情反反复复，惟愿身体安康！

我用python抓取了B站上千条评论，并进行可视化分析，下面详细讲解代码。

二、爬虫代码

爬虫部分不作讲解，可移步往期文章详细了解。

三、可视化代码

为了方便看效果，以下代码采用jupyter notebook进行演示。

3.1 读取数据

用read_csv读取刚才爬取的B站评论数据：

查看前3行及数据形状：

3.2 数据清洗

处理空值及重复值：

3.3 可视化

3.3.1 IP属地分析-柱形图

可得结论：关于"阳了"这个话题，评论里关注度最高为广东、北京、江苏等地区，其中，广东省的关注度最高。同时，我们注意到，也包含一些海外网友的少量评论。

3.3.2 评论时间分析-折线图

分析出评论时间的分布情况：

可得结论：关于"阳了"这个话题，再抓取到的数据范围内，12.18日的评论数据量最大，达到了将近900的数量峰值。

3.3.3 点赞数分布-直方图

由于点赞数大部分为0或个位数情况，个别点赞数到达成千上万，直方图展示效果不佳，因此，仅提取点赞数<30的数据绘制直方图。

可得结论：从直方图的分布来看，点赞数在0-3个的评论占据大多数，很少点赞数达到了上千上万的情况。证明网友对"阳了"事件的态度分布比较均匀，没有出现态度非常聚集的评论内容。

3.3.4 评论内容-情感分布饼图

针对中文评论数据，采用snownlp开发情感判定函数：

情感分布饼图，如下：

可得结论：关于"阳了"这个话题，积极评价与消极评价占比差不多，积极评价稍高一点，反应出网友对感染阳性的态度反差很大，大约各占一半。

3.3.5 评论内容-词云图

初始化停用词和词云图对象：

jieba分词之后，对分词后数据进行绘制词云图：

可得结论：在词云图中，阳、感染、发烧、症状、疼、嗓子等词汇较大，出现频率较高，反应出众多网友对确诊阳性后描述病症、积极探讨病情的现状。

三、演示视频

【爬虫+可视化】演示：用python抓取并分析哔哩哔哩关于"阳了"的评论数据_哔哩哔哩_bilibili

获取源码：【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论

我是马哥，全网累计粉丝上万，欢迎一起交流python技术。

各平台搜索“马哥python说”：知乎、哔哩哔哩、小红书、新浪微博、博客园。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/460006