《强化学习在阿里的技术演进与业务创新》读书笔记_00建模_强化学习在阿里的技术演进与业务创新读书笔记

作者：Cpp五条 | 2024-03-21 06:21:18

踩

强化学习在阿里的技术演进与业务创新读书笔记

1 背景知识介绍

机器学习算法大致可分为3种：监督学习、非监督学习、强化学习。

在阿⾥移动电商平台中，⼈机交互的便捷，碎⽚化使⽤的普遍性，页⾯切换的串⾏化，⽤户轨迹的可跟踪性等都要求系统能够对变幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。基于监督学习的方式缺少有效的探索能力，系统倾向于给消费者推送曾经发⽣过⾏为的信息单元（商品、店铺或问题答案）。而强化学习作为⼀种有效的基于⽤户与系统交互过程建模和最⼤化过程累积收益的学习⽅法，是最接近自然界动物学习、决策本质的一种学习范式，具有优良的自学习、探索能力，在⼀些阿⾥具体的业务场景中进⾏了很好的实践并得到⼤规模应⽤。

相对于DeepMind和学术界看重强化学习的前沿研究，阿⾥巴巴则将重点放在推动强化学习技术输出及商业应⽤。

2 阿里服务的强化学习建模

阿里移动电商平台作为信息的载体，需要在与消费者的互动过程中，根据对消费者（环境）的理解，及时调整提供信息（商品、客服机器⼈的回答、路径选择等）的策略，从⽽最⼤化过程累积收益（消费者在平台上的使⽤体验）。在这里插入图片描述
在搜索场景中，阿⾥巴巴对⽤户的浏览购买⾏为进⾏MDP 建模，在搜索实时学习和实时决策计算体系之上，实现了基于强化学习的排序策略决策模型排序。从⽽使得淘宝搜索的智能化进化⾄新的⾼度。双11 桶测试效果表明，算法指标取得了近20% 的⼤幅提升。

在推荐场景中，阿⾥巴巴使⽤了深度强化学习与⾃适应在线学习，通过持续机器学习和模型优化建⽴决策引擎，对海量⽤户⾏为以及百亿级商品特征进⾏实时分析，帮助每⼀个⽤户迅速发现宝贝，提⾼⼈和商品的配对效率，算法效果指标提升10%-20%。

在智能客服中，如阿⾥⼩蜜这类的客服机器⼈，作为投放引擎的agent，需要有决策能⼒。这个决策不是基于单⼀节点的直接收益来确定，⽽是⼀个较为长期的⼈机交互的过程，把消费者与平台的互动看成是⼀个马尔可夫决策过程，运⽤强化学习框架，建⽴⼀个消费者与系统互动的回路系统，⽽系统的决策是建⽴在最⼤化过程收益上，来达到⼀个系统与⽤户的动态平衡。

在⼴告系统中，如果⼴告主能够根据每⼀条流量的价值进⾏单独出价，⼴告主便可以在各⾃的⾼价值流量上提⾼出价，⽽在普通流量上降低出价，如此容易获得较好的ROI，与此同时平台也能够提升⼴告与访客间的匹配效率。阿⾥巴巴实现了基于强化学习的智能调价技术，对于来到⼴告位的每⼀个访客，根据他们的当前状态去决定如何操作调价，给他们展现特定的⼴告，引导他们的状态向我们希望的⽅向上做⼀步转移，在双11 实测表明，CTR，RPM 和GMV均得到了⼤幅提升。

参考文献
《强化学习在阿里的技术演进与业务创新》

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】

《强化学习在阿里的技术演进与业务创新》读书笔记_00建模_强化学习在阿里的技术演进与业务创新 读书笔记

1 背景知识介绍

2 阿里服务的强化学习建模

《强化学习在阿里的技术演进与业务创新》读书笔记_00建模_强化学习在阿里的技术演进与业务创新读书笔记