音乐数据集汇总 - wpsshop博客

接下来会研究一下音乐推荐系统，需要数据来进行算法及工程代码的演示，遂汇总一下网上开源的音乐数据集。

Million Song Dataset

说到音乐数据集第一位肯定是MSD，它包含了100万首歌曲的信息，总量有280GB大小。由于数据量的确较大，它使用了h5的文件压缩格式，并提供了一些code用于读这种文件。

每首歌对应一个文件，字段包括歌曲的方方面面，如 artist_mbid ， artist_name ， title ， tempo 等等，所有字段在这里列出。路径是奇怪的，Q&A中解释说，实在无法把所有文件都放到同一个目录下，目录的组织方式为：某首歌曲所在位置为它的The Echo Nest track IDs的第三、第四、第五位形成的层级目录，比如 MillionSong/data/A/D/H/TRADHRX12903CD3866.h5 。

此外，在MSD的基础上，社区还贡献了不少补充数据集，方便对MSD做各方面的研究。在首页可以很容易找到它们。

The SecondHandSongs Dataset: 一些歌曲被翻唱的信息，以及Second Hand网站对各翻唱的performance值。
The musiXmatch Dataset: 以bag-of-words的形式提供了MSD中77%数量歌曲的歌词数据。
The Las