当前位置:   article > 正文

Spark机器学习HelloWorld系列(一)音乐推荐_spark音乐推荐系统

spark音乐推荐系统

Spark机器学习HelloWorld系列(一)个性化推荐

一、数据集准备

本教程使用的是数据集是LAST.FM的音乐推荐数据,数据集包括2个文件:

1.用户文件:usersha1-profile.tsv
数据列为:

user-mboxsha1 \t gender ('m'|'f'|empty) \t age (int|empty) \t country (str|empty) \t signup (date|empty)
  • 1

示例数据:

用户ID                                    性别 年龄  国籍          注册日期
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf    m    19    Mexico    Apr 28, 2008
  • 1
  • 2

2.用户播放记录:usersha1-artmbid-artname-plays.tsv:

数据列为:

 user-mboxsha1 \t musicbrainz-artist-id \t artist-name \t plays
  • 1

示例数据:

用户ID  艺术家ID 艺术家名称 播放次数
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf    af8e4cc5-ef54-458d-a194-7b210acf638f    cannibal corpse    48
  • 1
  • 2

数据集下载地址:

http://www.dtic.upf.edu/~ocelma/MusicRecommendationDataset/lastfm-360K.html

二、数据集上传到HDFS

解压文件后,上传数据文件到HDFS

cd lastfm-dataset-360K
hadoop fs -put * /user/mldata/lastfm360k/
  • 1
  • 2

三、准备训练数据集

将现有数据文件做成3个部分,用于机器学习:
1.用户文件
2.用户评分
3.艺术家文件

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/86480
推荐阅读
相关标签
  

闽ICP备14008679号