当前位置:   article > 正文

【Python数据分析】pandas常用基础数据分析代码_python数据分析代码

python数据分析代码

目录

一、获取老番茄数据

二、python数据分析

1、读取数据源

2、查看数据概况

3、查看异常值

4.1、查看最大值(max函数)

4.2、查看最小值(min函数)

5.1、查看TOP3的视频(nlargest函数)

5.2、查看倒数3的视频(nsmallest函数)

6、查看相关性

7.1、可视化分析-plot

7.2、可视化分析-pyecharts

三、同步讲解视频


一、获取老番茄数据

首先,看下目标分析数据:

含字段:

  • 视频标题
  • 视频地址
  • 视频上传时间
  • 视频时长
  • 是否合作视频
  • 视频分区
  • 弹幕数
  • 播放量
  • 点赞数
  • 投币量
  • 收藏量
  • 评论数
  • 转发量
  • 实时爬取时间

基于这份老番茄数据,用python做了以下基础数据分析的开发。

二、python数据分析

1、读取数据源

  1. import pandas as pd
  2. df = pd.read_excel('老番茄.xlsx', parse_dates=['视频上传时间', '实时爬取时间']) # 读取excel数据

2、查看数据概况

  1. df.head(3) # 查看前三行数据
  2. df.shape # 查看形状,几行几列
  3. df.info() # 查看列信息
  4. df.describe() # 数据分析
  5. df['是否合作视频'].value_counts() # 统计:是否合作视频
  6. df['视频分区'].value_counts() # 统计:视频分区

3、查看异常值

  1. df2 = df[['视频标题', '视频地址', '弹幕数', '播放量',
  2. '点赞数', '投币量', '收藏量', '评论数', '转发量', '视频上传时间']] # 去掉不关心的列
  3. df2.loc[df.评论数 == 0] # 评论数是0的数据
  4. df2.isnull().any() # 空值
  5. df2.duplicated().any() # 重复值

4.1、查看最大值(max函数)

  1. df2.loc[df.播放量 == df['播放量'].max()] # 播放量最高的视频
  2. df2.loc[df.弹幕数 == df['弹幕数'].max()] # 弹幕数最高的视频

4.2、查看最小值(min函数)

  1. df2.loc[df.投币量 == df['投币量'].min()] # 投币量最小的视频
  2. df2.loc[df.收藏量 == df['收藏量'].min()] # 收藏量最小的视频

5.1、查看TOP3的视频(nlargest函数)

  1. df2.nlargest(n=3, columns='播放量') # 播放量TOP3的视频
  2. df2.nlargest(n=3, columns='投币量') # 投币量TOP3的视频

5.2、查看倒数3的视频(nsmallest函数)

  1. df2.nsmallest(n=3, columns='评论数') # 评论数倒数3的视频
  2. df2.nsmallest(n=3, columns='转发量') # 转发量倒数3的视频

6、查看相关性

  1. # 查看spearman相关性(得出结论:收藏量&投币量,相关性最大,0.98)
  2. df2.corr(method='spearman')

7.1、可视化分析-plot

  1. import matplotlib.pyplot as plt
  2. plt.rcParams['font.sans-serif'] = ['SimHei'] # 显示中文标签 # 指定默认字体
  3. plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
  4. # 可视化效果不好
  5. df2.plot(x='视频上传时间', y=['弹幕数', '播放量', '点赞数', '投币量', '收藏量', '评论数', '转发量'])

7.2、可视化分析-pyecharts

  1. from pyecharts.charts import Line # 折线图所导入的包
  2. from pyecharts import options as opts # 全局设置所导入的包
  3. time_list = df2['视频上传时间'].astype(str).values.tolist()
  4. line = (
  5. Line() # 实例化Line
  6. # 加入X轴数据
  7. .add_xaxis(time_list)
  8. # 加入Y轴数据
  9. .add_yaxis("弹幕数", df2['弹幕数'].values.tolist())
  10. .add_yaxis("播放量", df2['播放量'].values.tolist())
  11. .add_yaxis("点赞数", df2['点赞数'].values.tolist())
  12. .add_yaxis("投币量", df2['投币量'].values.tolist())
  13. .add_yaxis("收藏量", df2['收藏量'].values.tolist())
  14. .add_yaxis("评论数", df2['评论数'].values.tolist())
  15. .add_yaxis("转发量", df2['转发量'].values.tolist())
  16. .set_global_opts(title_opts=opts.TitleOpts(title="老番茄数据分析"),
  17. legend_opts=opts.LegendOpts(is_show=True),
  18. )
  19. # 全局设置项
  20. )

 

至此,基础数据分析工作完成了。

三、同步讲解视频


逐行代码视频讲解:

【python数据分析】4分钟讲解pandas数据分析老番茄

首发公众号文章:【Python数据分析案例】python数据分析老番茄视频数据


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/149001
推荐阅读
相关标签
  

闽ICP备14008679号