赞
踩
目前市场上存在许多家音乐平台,其中在阿里音乐拥有非常庞大的数据资源库,对于音乐流行趋势的把握有着极为重要的指引作用。我以阿里音乐用户 2015 年 3 月-7 月的历史播放量数据为基础,期望可以通过对阿里音乐平台上 2015年 8月艺人的试听量的预测,挖掘出即将成为潮流的艺人,从而实现对一个时间段音乐流行趋势的准确把控。由于这些数据是时间序列数据,通过一系列实验后,我发现使用 LSTM 模型以及动态规划算 法以及相似子序列匹配算法来进行对歌手的热度预测效果会更好。通过 LSTM 模型,我预测出了最后得到的准确率为 76%。下方是该项目使用的数据特点、进行的数据预处理过程、模型构建结果的可视化,为歌手热度预测提供良好的参考和引导
思路:
固定播放量的预测
图 用户7063b3d0c075a4d276c5f06f4327cf4a
图 用户f8c065dc140ec74c6e44144164e618e3
由于异常播放量可能会对模型产生较大的影响,因此需要对训练数据的异常情况进行平滑处理。得到平滑训练数据。我们 将异常日日期记做t,取该歌手异常周期前的三天的平均值对异常周期前三天进行平滑处理,同理,取异常周期后的三天的平均值对异常周期后三天进行平滑处理。结果如图所示
使用滑窗,将100位歌手前六十天的数据放入模型训练,得出该天的预测数据。
将所有艺人的3到7月份的播放量加权平均,按照稀疏性分为4类,分别为0-7500/7500-15000、15000-30000、30000-50000。由表4-1和图4-1可见,大部分艺人的播放量都聚集在0-7500,且占比83%,说明大部分艺人的播放量都是在较低状态,比较平稳。
图 100位艺人3-7月的播放量
根据艺人对应的用户集合及总数,并在同一语言的前提下,判断艺人两两之间的相似性。如图所示,其中颜色越浅代表艺人相似度越高,越深则代表相似度越低,并且艺人自己与自己的相似度比较是1.0,所以中间出现了一条对角线。
我们从模型预测出的平滑数据,随机选择了4个歌手的数据。由下图可以发现,歌手的起伏都比较平稳。
下图是第33位歌手播放增量数据平滑前后的对比图,可以发现平滑后原本的两个凸起都被平滑掉了。
通过lstm模型的训练,得到平滑可变播放量(未加入异常数据)。此处选取的4个歌手与模型预测结果中的歌手相同。通过下图可以发现,各个歌手的播放量变化比较平稳。
图4-5
4.6最终结果
由特定公式可以得到最终所有歌手的播放量。我从100个歌手中随机选取了4个歌手,对8月份的预测结果进行了可视化处理。
如图所示,某歌手的预测结果趋势和实际结果趋势大致相同。
之前还用过一些雷达图、3D图来可视化,但是由于电脑之前不争气地坏了,所以只能找到这些保留过的数据。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。