赞
踩
MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。
http://files.grouplens.org/datasets/movielens/
下面以ml-100k数据集为例进行介绍:
最主要用的是u.data(评分) | u.item(电影信息) | u.user(用户信息)
下载之后各文件具体含义如下:
各文件含义如下:
allbut.pl --生成训练和测试集的脚本,其中除了n个用户评分之外,所有训练和测试集都在训练数据中。
mku.sh --从u.data数据集生成的所有用户的shell脚本。
u.data – 由943个用户对1682个电影的10000条评分组成。每个用户至少评分20部电影。用户和电影从1号开始连续编号。数据是随机排序的。
标签分隔列表:user id | item id | rating | timestamp
u.genre --类型列表。
u.info --u.data数据集中的用户数,电影数和评分数。
u.item --电影信息。
标签分隔列表:movie id | movie title | release date | video release date | IMDb URL | unknown | Action | Adventure | Animation | Children’s | Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。