赞
踩
本教程使用的是数据集是LAST.FM的音乐推荐数据,数据集包括2个文件:
1.用户文件:usersha1-profile.tsv
数据列为:
user-mboxsha1 \t gender ('m'|'f'|empty) \t age (int|empty) \t country (str|empty) \t signup (date|empty)
示例数据:
用户ID 性别 年龄 国籍 注册日期
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf m 19 Mexico Apr 28, 2008
2.用户播放记录:usersha1-artmbid-artname-plays.tsv:
数据列为:
user-mboxsha1 \t musicbrainz-artist-id \t artist-name \t plays
示例数据:
用户ID 艺术家ID 艺术家名称 播放次数
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf af8e4cc5-ef54-458d-a194-7b210acf638f cannibal corpse 48
数据集下载地址:
http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html
解压文件后,上传数据文件到HDFS
cd lastfm-dataset-360K
hadoop fs -put * /user/mldata/lastfm360k/
将现有数据文件做成3个部分,用于机器学习:
1.用户文件
2.用户评分
3.艺术家文件
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。