接下来会研究一下音乐推荐系统,需要数据来进行算法及工程代码的演示,遂汇总一下网上开源的音乐数据集。
Million Song Dataset
说到音乐数据集第一位肯定是MSD,它包含了100万首歌曲的信息,总量有280GB大小。由于数据量的确较大,它使用了h5的文件压缩格式,并提供了一些code用于读这种文件。
每首歌对应一个文件,字段包括歌曲的方方面面,如 artist_mbid
, artist_name
, title
, tempo
等等,所有字段在这里列出。 路径是奇怪的,Q&A中解释说,实在无法把所有文件都放到同一个目录下,目录的组织方式为: 某首歌曲所在位置为它的The Echo Nest track IDs的第三、第四、第五位形成的层级目录,比如 MillionSong/data/A/D/H/TRADHRX12903CD3866.h5
。
此外,在MSD的基础上,社区还贡献了不少补充数据集,方便对MSD做各方面的研究。在首页可以很容易找到它们。
- The SecondHandSongs Dataset: 一些歌曲被翻唱的信息,以及Second Hand网站对各翻唱的performance值。
- The musiXmatch Dataset: 以bag-of-words的形式提供了MSD中77%数量歌曲的歌词数据。
- The Las