当前位置:   article > 正文

基于hadoop的商品推荐系统_书籍商品推荐系统

基于hadoop和java的物品推荐csdn

书籍商品推荐系统

使用矩阵分解, 根据用户给书籍商品的评分数据, 做一个千人千面的个性化推荐系统

需要安装推荐系统库surprise, 使用如下命令安装: pip install scikit-surprise

  1. # 导入 nunpy 和 surprise 辅助库
  2. import numpy as np
  3. import surprise

Surprise库本身没有提供纯粹的矩阵分解的算法, 在这里我们自己实现了基于Alternating Least Squares的矩阵分解, 使用梯度下降法优化

矩阵分解类MatrixFactorization继承了surprise.AlgoBase, 方便我们使用surpise库提供的其它功能

  1. class MatrixFactorization(surprise.AlgoBase):
  2. '''基于矩阵分解的推荐.'''
  3. def __init__(self, learning_rate, n_epochs, n_factors, lmd):
  4. self.lr = learning_rate # 梯度下降法的学习率
  5. self.n_epochs = n_epochs # 梯度下降法的迭代次数
  6. self.n_factors = n_factors # 分解的矩阵的秩(rank)
  7. self.lmd = lmd # 防止过拟合的正则化的强度
  8. def fit(self, trainset):
  9. '''通过梯度下降法训练, 得到所有 u_i 和 p_j 的值'''
  10. print('Fitting data with SGD...')
  11. # 随机初始化 user 和 item 矩阵.
  12. u = np.random.normal(0, .1, (trainset.n_users, self.n_factors))
  13. p = np.random.normal(0, .1, (trainset.n_items, self.n_factors))
  14. # 梯度下降法
  15. for _ in range(self.n_epochs):
  16. for i, j, r_ij in trainset.all_ratings():
  17. err = r_ij - np.dot(u[i], p[j])
  18. #TODO
  19. # 利用梯度调整 u_i 和 p_j
  20. u[i] -= -self.lr * err * p[j] + self.lr * self.lmd * u[i]
  21. p[j] -= -self.lr * err * u[i] + self.lr * self.lmd * p[j]
  22. # 注意: 修正 p_j 时, 安装严格定义, 我们应该使用 u_i 修正之前的值, 但是实际上差别微乎其微
  23. self.u, self.p = u, p
  24. self.trainset = trainset
  25. def estimate(self, i, j):
  26. '''预测 user i 对 item j 的评分.'''
  27. # 如果用户 i 和物品 j 是已知的值, 返回 u_i 和 p_j 的点击
  28. # 否则使用全局平均评分rating值(cold start 冷启动问题)
  29. if self.trainset.knows_user(i) and self.trainset.knows_item(j):
  30. # 返回 u_i 和 p_j 的点击
  31. return np.dot(self.u[i], self.p[j])
  32. else:
  33. # 返回 全局平均评分rating值
  34. return self.trainset.global_mean

演示如何调用以上定义的矩阵分解类实现书籍商品的推荐

  1. from surprise import BaselineOnly
  2. from surprise import Dataset
  3. from surprise import Reader
  4. from surprise import accuracy
  5. from surprise.model_selection import cross_validate
  6. from surprise.model_selection import train_test_split
  7. import os
  8. file_path = os.path.expanduser('./book_crossing/book_ratings.dat')
  9. # 创建 reader 对象
  10. reader = Reader(line_format='user item rating', sep='t', rating_scale=(1, 5))
  11. data = Dataset.load_from_file(file_path, reader=reader)
  12. # 将数据随机分为训练和测试数据集
  13. trainset, testset = train_test_split(data, test_size=.25)
  14. # 初始化以上定义的矩阵分解类.
  15. algo = MatrixFactorization(learning_rate=.015, n_epochs=60, n_factors=2, lmd = 0.2)
  16. # 训练
  17. algo.fit(trainset)
  18. # 预测
  19. predictions = algo.test(testset)
  20. # 计算平均绝对误差
  21. accuracy.mae(predictions)

Fitting data with SGD... MAE: 3.0879

Out[32]:
3.087916709895363

  1. # 使用 surpise 内建的基于最近邻的方法做比较
  2. algo = surprise.KNNBasic()
  3. algo.fit(trainset)
  4. predictions = algo.test(testset)
  5. accuracy.mae(predictions)

Computing the msd similarity matrix... Done computing similarity matrix. MAE: 3.0747

Out[33]:
3.0746869394684526

  1. # 使用 surpise 内建的基于 SVD 的方法做比较
  2. algo = surprise.SVD()
  3. algo.fit(trainset)
  4. predictions = algo.test(testset)
  5. accuracy.mae(predictions)

MAE: 3.0632

Out[34]:
3.063175741427142

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/842950
推荐阅读
相关标签
  

闽ICP备14008679号