Spark机器学习HelloWorld系列（一）音乐推荐_spark音乐推荐系统

作者：盐析白兔 | 2024-02-15 19:52:54

踩

spark音乐推荐系统

Spark机器学习HelloWorld系列（一）个性化推荐

本教程使用的是数据集是LAST.FM的音乐推荐数据，数据集包括2个文件：

1.用户文件：usersha1-profile.tsv
数据列为：

user-mboxsha1 \t gender ('m'|'f'|empty) \t age (int|empty) \t country (str|empty) \t signup (date|empty)
1

示例数据：

用户ID                                    性别 年龄  国籍          注册日期
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf    m    19    Mexico    Apr 28, 2008
1
2

2.用户播放记录：usersha1-artmbid-artname-plays.tsv:

数据列为：

 user-mboxsha1 \t musicbrainz-artist-id \t artist-name \t plays
1

示例数据：

用户ID  艺术家ID 艺术家名称 播放次数
000063d3fe1cf2ba248b9e3c3f0334845a27a6bf    af8e4cc5-ef54-458d-a194-7b210acf638f    cannibal corpse    48
1
2

数据集下载地址：

解压文件后，上传数据文件到HDFS

cd lastfm-dataset-360K
hadoop fs -put * /user/mldata/lastfm360k/
1
2

将现有数据文件做成3个部分，用于机器学习：
1.用户文件
2.用户评分
3.艺术家文件

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/86480