搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
IT小白
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
985硕士的烦恼:今年30岁,是继续做程序员还是去考公务员_30岁的985硕士考公
2
52、PHP 实现选择排序
3
硬核,288页Python核心知识笔记(附思维导图)_python线程思维导图
4
【面试系列】软件工程师高频面试题及详细解答_软件工程 面试
5
若依框架详细使用_若依框架使用教程
6
孟德尔随机化、R语言,报错,如何解决?_孟德尔随机化报错
7
IPV6公网暴露下的OPENWRT防火墙安全设置(只允许访问局域网中指定服务器指定端口其余拒绝)_openwrt ipv6设置
8
c语言程序设计教程pdf下载,C语言程序设计教程PDF合集-中国科技大学.pdf
9
PDE笔记
10
在docker中,安装zookeeper、kafka
当前位置:
article
> 正文
人工智能项目——推荐系统实战(一)
作者:IT小白 | 2024-08-01 14:13:18
赞
踩
推荐系统
推荐系统
概念
信息过滤系统 解决信息过载 用户需求不明确的问题
利用一定的规则给物品推序 展示给需求不明确的用户
推荐 搜索区别
推荐个性化较强,用户被动接受,希望能够提供持续服务
搜索个性化弱,用户主动搜索,快速满足用户需求
推荐和web项目区别
web 构建稳定的信息流通通道
推荐 信息过滤系统
推荐 结果是概率问题
web 对结果有明确预期
推荐系统的架构
系统要素
UI与UE(前端界面)
数据(Lambda架构)
业务知识
算法
整体架构
大数据Lanbda架构
解决实时计算(数据相对比较小,可以快速反应)和离线计算(数据量太多需要一定时间才能完成)共同提供服务的问题
离线/实时计算优劣
离线:处理数据量大,延迟大
实时:响应快,处理的数据量小
涉及技术
分层架构
批处理层(离线)
data不可变,可进行任何运算,可水平扩展
高延迟(计算量数据量不同so延迟不同)
日志收集Flume
分布式存储Handoop(数据量太大一个地方存不下要分布在多个地方存储)(数据分布式处理分布在n台电脑上so也可以在n台电脑上一起处理数据加快数据处理)
分布式计算Hadoop MapReduce & spark
视图存储数据库
nosql
Redis/memcache
MySQL
实时处理层(在线)
流式处理,持续计算
存储分析某窗口期内数据
最终正确性
实时数据收集 flume(日志采集系统) & kafka(消息队列)
实时数据分析 spark streaming / storm / flink
服务层
支持随机读
短时间内返回结果
读取并归并批处理层和实时处理层结果
推荐算法架构
召回阶段(基于用户行为海选推荐内容)
协同过滤算法
基于用户的
基于物品的
排序阶段(决定最终推荐效果)
CTR预估(即点击率预估,根据用户点击数据估计用户是否会点击)(使用LR算法即逻辑回归算法)
LR算法:
策略调整(根据推荐效果与商业合作等调整推荐策略)
推荐模型建构
流程:数据采集->特征工程->挑选算法训练模型->评估、模型上线
特征工程(从数据中筛选特征)
协同过滤算法(最经典的推荐算法)
基本思想:物以类聚人以群分(和你喜好相同的人喜欢的东西,和你喜欢的东西相似的东西)
实现步骤
1.计算两两相似度然后排序,找出top_n相似的人或物
2.by top_n结果生成初始推荐结果,再过滤掉用户已有记录者or明确不感兴趣者
基于用户:
1.给用户a找到最相似的n个用户
2.n个用户消费过哪些物品
3.n个用户消费过的物品中减去a消费过的=推荐结果
基于物品
1.给物品a找到最相似的n个物品
2.找到a用户的消费记录中物品的相似物品
3.从这些消费物品中减去重合的=推荐结果
相似度计算方法
数据分类:实数值(物品评分)、布尔值(是否点击是否收藏)
计算方法:\\\\(数据是连续数值则较适合余弦和皮尔逊)\\\\(数据是0、1布尔值适合用杰卡德相似度)
余弦相似度(只考虑夹角不考虑向量长度)(算向量夹角的余弦值)
皮尔逊相关系数(对余弦相似度的优化)(对向量的每个分量做中心化再求余弦相似度)
杰卡德相似度(交集除以并集)
代码实现(后续作品ing)
基于模型的算法
用户-物品矩阵较稀疏时,直接取物品向量 用户向量计算相似度不太靠谱
基于模型的算法可以解决用户-物品矩阵较稀疏的问题
矩阵分解
m x n的矩阵可以拆分为m x k和k x n的矩阵(前提:k<<m且k<<n)
把大矩阵拆分为两个小的 用户矩阵 物品矩阵
大矩阵 约等于 用户矩阵 × 物品矩阵
用aks 交替最小二乘法来优化损失
算出优化后的物品矩阵 取出物品向量
算出优化后的用户矩阵 取出用户向量
用户向量点乘物品向量 得最终评分预测
推荐系统评估
隐式反馈&显式反馈
常用指标
准确性
理论角度
评分预测(把用户数据划分训练集测试集用RMSE MAE算)
topn推荐(召回率 精准率)
业务角度
评估方法
问卷:成本高,影响用户体验
离线评估:仅能评估少数指标,只能在用户看到过的候选集上做评估且有偏差,速度快不影响用户体验
在线评估:灰度评估&A/B测试50%全量上线
实践:离线评估和在线评估结合,定期问卷调查
推荐系统冷启动问题
概念(本质是推荐系统依赖历史数据预测用户偏好)
用户冷启动:how为新用户做个性化推荐
1.收集用户特征(基本信息填写,权限获取)
2.引导用户填写兴趣
3.使用其它站点的行为数据
4.新老用户推荐差异
新:热门推荐;老:长尾推荐
explore explot力度
使用单独的特征和模型评估
综上即:打标签(尽量收集用户信息构建用户画像)、据标签聚类,用已有用户的行为做推荐、基于流行度
物品冷启动:how将新物品推荐给用户
给物品打标签构建物品画像、物品聚类基于已有相似物品做基于内容的推荐
系统冷启动:用户冷启动+物品冷启动
若应用缺乏用户行为数据,做基于内容的推荐
基于内容的推荐:
给物品打标签
系统自己提取(如业务数据库)
用户填写(如淘宝搜索关键词)
中文分词 利用算法计算词的权重(词出现频率高则权重大之类)
计算词权重的算法有:tf-idf(term frequency词频idf逆文档率)(如1000篇文有20篇出现了python,那其逆文档率就是1000/20后以取以10为底的对数值)、textrank
利用标签的文字 转换成词向量
用向量表示语义,若两词向量相似度高则认为语义相近
利用词向量 构建物品的向量
一个物品有n个关键词,每个关键词对应一个词向量
求和(权重*词向量)/n
利用n个关键词的词向量获取物品向量
通过物品向量计算相似度
皮尔逊相关系数 计算物品相似度
随用户行为积累,做协同过滤
最后基于内容和协同过滤的结果都算出来,加权求和得结果
比较 (a)基于内容的推荐&(b)基于物品的协同过滤
contend_base:词向量->物品向量->计算相似度
item_based cf:user-item martrlx->物品向量->相似度
物品向量构建过程不同
a:by文本(物品描述信息,系统填标签,用户填标签)(物品本身)
b:by用户评分矩阵数据得到(用户行为)
推荐算法
Model-Based CF(基于模型的协同过滤算法)
基于K最近邻的协同过滤推荐
基于回归模型的协同过滤推荐
基准预测Baseline
偏置:用户或物品普遍高于或低于平均值的差值
用基准预测来预测评分的步骤:
求解用户偏置与物品偏置的问题可转换为损失优化的过程(找到与已知评分拟合的最好的用户偏差和物品偏差并避免过拟合)
基于矩阵分解的协同过滤推荐
梯度下降算法:一种用于找到函数局部最小值的优化算法
随机梯度下降
在推荐系统中主要用于最小化损失函数,从而实现模型参数的优化
解决数据稀疏性问题:通过优化损失函数,有效地学习用户-项目之间的相似度,从而减少数据稀疏性对推荐系统性能的影响。
解决冷启动问题:通过在新用户或新项目上进行软最大化,从而为其提供更准确的推荐。
优化推荐系统的评估指标:通过优化不同的损失函数实现对推荐系统的性能评估。
代码实现(后续作品ing)
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/IT小白/article/detail/914472
推荐阅读
article
人工智能
/
机器
学习
基础知识
——
目标
检测
_
机器
学习
目标
识别...
人工智能
/
机器
学习
基础知识
——
目标
检测
_
机器
学习
目标
识别
机器
学习
目标
识别 ...
赞
踩
article
Python
人工智能
:
11
~15_
python
人工智能
系列...
原文:Artificial Intelligence with
Python
协议:CC BY-NC-SA 4.0译者:飞...
赞
踩
article
【
人工智能
】
Transformers
Pipeline
概述_tranaformer
pipeline
...
在
人工智能
的领域,
Transformers
模型已经成为解决许多自然语言处理任务的核心工具。本文将介绍如何通过Pipeli...
赞
踩
article
【
人工智能
】
Transformers
之
Pipeline
(二):自动
语音
识别(
automatic
-sp...
本文对transformers之pipeline的自动
语音
识别(
automatic
-
speech
-
recognition
...
赞
踩
article
计算机
毕业设计
Python
深度
学习
垃圾邮件
分类
检测系统 朴素
贝叶斯
算法 机器
学习
人工智能
数据
可视...
计算机
毕业设计
Python
深度
学习
垃圾邮件
分类
检测系统 朴素
贝叶斯
算法 机器
学习
人工智能
数据
可视化
大
数据
毕业设计
...
赞
踩
article
MATLAB
算法
实战应用案例精讲-【
人工智能
】
SLAM
(概念篇)(最终篇)
_
如何用
matlab
做sl...
针对环境的描述(地图),目前各国研究者已经提出了多种表示法,大致可分为三类:栅格表示、几何信息表示和拓扑图表示,每种方法...
赞
踩
article
人工智能
+
时代
公共
云
发展
模式与路径
研究
...
本报告阐述了
公共
云的概念内涵及其对未来经济社会
发展
的重要意义,在分析我国
公共
云当前
发展
态势与面临问题的基础上,提出了“人...
赞
踩
article
【
人工智能
】
Transformers
之
Pipeline
(二):自动语音识别(
automatic
-sp...
本文对transformers之pipeline的自动语音识别(
automatic
-
speech
-
recognition
...
赞
踩
article
【
人工智能
AI】
Transformer
神经网络
模型
的实现
原理
_
人工智能
transformer
...
Transformer
神经网络
模型
是一种深度学习
模型
,其中包含了自注意力机制和分层位置编码。它从简单的结构中提取抽象的表...
赞
踩
article
人工
智能
,
应该
如何
测试
?(八)企业
智能
客服
测试
大
模型
RAG_
智能
客服配置效果综合
测试
...
我在招商银行卡中心已经工作了两个多月啦,来分享一下我的初体验吧!我是去年参加国家电网校园招聘的,至今已经在这里工作了一年...
赞
踩
article
人工智能
,
数字
经济
时代
的
新生产力_
神经网络
的
拟合
过程
涉及海量
的
函数运算、对
计算资源
的
要求
非常
高,gp...
简介:在
数字
经济
时代
,任何人、任何行业都需要用云计算。今天,我打开手机淘宝,用支付宝扫二维码都是云计算再给我们提供服务。...
赞
踩
article
|行业洞察·
人工智能
|《
2024
Z
世代
AI
GC
态度
报告
:
AI
如何影响每个“我”》...
2024
Z
世代
AI
GC
态度
报告
:
AI
如何影响每个“我”_
2024
z
世代
aigc
态度
报告
2024
z
世代
aigc
态度
报...
赞
踩
article
【人工智能】
反向
传播
算
法
及
梯度
下降
法
_
反向
传播
和
梯度
下降
算
法
...
本文详细介绍了
反向
传播
算
法
的工作原理,包括其通过计算误差调整权重的过程,以及在深度学习中的应用,特别是与
梯度
下降
法
(包括...
赞
踩
article
【
人工智能
】
--
反向
传播
_
人工智能
反向
传播
...
反向
传播
(Backpropagation)是一种在人工神经网络中用于计算误差梯度并据此调整网络参数(如权重和偏置)的数学...
赞
踩
article
人工智能
——
反向
传播
网络_
人工智能
技术传输网
csdn
...
这篇文章简单介绍了
人工智能
中有关
反向
传播
网络及其学习算法的一些知识。_
人工智能
技术传输网
csdn
人工智能
技术传输网 c...
赞
踩
article
人工智能
/机器学习
基础知识
——
反向
传播
_
反向
传播
你
不得不
了解的小知识...
人工智能
/机器学习
基础知识
——
反向
传播
_
反向
传播
你
不得不
了解的小知识
反向
传播
你
不得不
了解的小知识 ...
赞
踩
article
人工智能
-
机器
学习
-
深度
学习
-
分类
与
算法
梳理_ai-
机器
学习
-
深度
学习
...
目前
人工智能
的概念层出不穷,容易搞混,理清脉络,有益新知识入脑。_ai-
机器
学习
-
深度
学习
ai-
机器
学习
-
深度
学习
...
赞
踩
article
2023-2024年
计算机
毕业设计
选题
合集推荐大全
人工智能
大
数据
通信工程
计科
软件工程
_计...
2023-2024年
计算机
毕业设计
选题
合集推荐大全
人工智能
大
数据
通信工程
计科
软件工程
选题
合集涵盖了管理系统、...
赞
踩
article
人工
智能
自动
规划
ppt
蔡自兴
_
分布式
优化
算法及其在多
智能
体系统与机器
学习
中的应用【附PPT与视...
关注微信公众号:
人工
智能
前沿讲习对话框回复"张家绮"获取PPT与
视频
资料
视频
资料可点击→播放
视频
查看导读
分布式
优化
理论和...
赞
踩
article
【
人工智能
】
AI
绘画...
AI
绘画作为科技与艺术交汇的新时代产物,正以其独特的魅力和无限的可能性改变着我们的艺术创作方式和审美体验。虽然它仍面临着...
赞
踩
相关标签
人工智能
机器学习
目标检测
深度学习
自然语言处理
tensorflow
Transformers
大模型应用
语音识别
whisper
迁移学习
python
大数据
课程设计
数据可视化
nlp
算法