当前位置:   article > 正文

数据可视化实践成果_阿里天池数据集音乐流行趋势预测数据集

阿里天池数据集音乐流行趋势预测数据集

本科期间,我参与了一些项目,收获颇丰。在此记录下来,希望自己能够不断进步!

一、数据可视化

天池大数据竞赛--阿里音乐流行趋势预测

目前市场上存在许多家音乐平台,其中在阿里音乐拥有非常庞大的数据资源库,对于音乐流行趋势的把握有着极为重要的指引作用。我以阿里音乐用户 2015 年 3 月-7 月的历史播放量数据为基础,期望可以通过对阿里音乐平台上 2015年 8月艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段音乐流行趋势的准确把控。由于这些数据是时间序列数据,通过一系列实验后,我发现使用 LSTM 模型以及动态规划算 法以及相似子序列匹配算法来进行对歌手的热度预测效果会更好。通过 LSTM 模型,我预测出了最后得到的准确率为 76%。下方是该项目使用的数据特点、进行的数据预处理过程、模型构建结果的可视化,为歌手热度预测提供良好的参考和引导

思路:

  •  其一,先对数据进行四个方面的处理,包括艺人按播放量高低进行分组、艺人相似度计算、子序列模式匹配处理异常数据、艺人粉丝集合判断。
  •  其二,将艺人的播放量划分为三个部分:固定、异常、可变,其中固定播放量未艺人粉丝集合的播放量,异常播放量为播放量突变幅度较大的播放量部分,最终剩下的部分即为可变播放量,可变播放量是较为平稳且波动有一定规律的播放量数据。
  •  其三,将可变播放量作为LSTM模型的输入,训练LSTM模型并进行预测得到可变播放量预测值,而异常播放量的计算方法是,子序列模式匹配出的相似异常情况数据按歌手相似性取不同权重计算得到异常播放量预测值。
  •  最终,总播放量等于可变播放量预测值、异常播放量预测值和固定播放量三者之和。

固定播放量的预测

  • 根据实际数据,将每个用户3-7月的播放量占比进行统计,部分结果如图所示:

                                                  图 用户7063b3d0c075a4d276c5f06f4327cf4a

 

                                                   图 用户f8c065dc140ec74c6e44144164e618e3

  • 数据平滑

       由于异常播放量可能会对模型产生较大的影响,因此需要对训练数据的异常情况进行平滑处理。得到平滑训练数据。我们 将异常日日期记做t,取该歌手异常周期前的三天的平均值对异常周期前三天进行平滑处理,同理,取异常周期后的三天的平均值对异常周期后三天进行平滑处理。结果如图所示

  • 训练取样本方法

使用滑窗,将100位歌手前六十天的数据放入模型训练,得出该天的预测数据。

 

                         

  •  艺人分类结果

    将所有艺人的3到7月份的播放量加权平均,按照稀疏性分为4类,分别为0-7500/7500-15000、15000-30000、30000-50000。由表4-1和图4-1可见,大部分艺人的播放量都聚集在0-7500,且占比83%,说明大部分艺人的播放量都是在较低状态,比较平稳。

                                                                             图 100位艺人3-7月的播放量

 

  • 歌手相似度

根据艺人对应的用户集合及总数,并在同一语言的前提下,判断艺人两两之间的相似性。如图所示,其中颜色越浅代表艺人相似度越高,越深则代表相似度越低,并且艺人自己与自己的相似度比较是1.0,所以中间出现了一条对角线。

 

  • 模型预测结果

我们从模型预测出的平滑数据,随机选择了4个歌手的数据。由下图可以发现,歌手的起伏都比较平稳。

 

  • 某歌手平滑前后数据对比

下图是第33位歌手播放增量数据平滑前后的对比图,可以发现平滑后原本的两个凸起都被平滑掉了。

 

  • 预测平滑可变播放量

通过lstm模型的训练,得到平滑可变播放量(未加入异常数据)。此处选取的4个歌手与模型预测结果中的歌手相同。通过下图可以发现,各个歌手的播放量变化比较平稳。

 

图4-5

4.6最终结果

由特定公式可以得到最终所有歌手的播放量。我从100个歌手中随机选取了4个歌手,对8月份的预测结果进行了可视化处理。

 

  • 某歌手所有数据对比图

如图所示,某歌手的预测结果趋势和实际结果趋势大致相同。

基于 SVM 的股票回测模型

  • 原数据预处理后加上标签后依旧无法看出数据情况

  •  单只股票数据K线图

 

 

  •  单只股票的部分原数据可视化

  •  利用SVM的股票价格预测结果和真实值对比的可视化

 

用户贷款征信预测

  • 使用SVR进行用户征信属于预测,其结果与其他预测方式相对比得到数据,进一步形成对比折线图

 

  •  预测数据和真实数据的对比散点图

  •  使用roc进行模型准确率评估,并可视化ROC曲线

 之前还用过一些雷达图、3D图来可视化,但是由于电脑之前不争气地坏了,所以只能找到这些保留过的数据。
 

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号