赞
踩
阿里技术团队近期发布了《强化学习在阿里的技术演进与业务创新》,阐述了阿里技术团队在淘宝搜索上,利用强化学习方法改进搜索策略的做法。
先说结论:淘宝对每个用户有个精准画像,其中最关键的指标是年龄、性别、购买能力(赤裸裸的欺负人!)。对每个商品有个画像,其中最关键的指标是点击率、价格档位(8档)。以搜索“皮鞋”为例,一开始推荐与用户购买能力匹配的价格档位,如果连续两次点击高价位的“皮鞋”,那么从第三次搜索开始就会发生质的变化,推荐的几乎全是高档“皮鞋”。而且淘宝搜索结果给出的,是最有可能点击或者或者购买的商品。真是目标明确,且看人下菜。
原理分析
淘宝搜索用了强化学习方法,来优化搜索结果排序策略Q。状态s为把用户前2次点击的商品价格档位(0~7,从低到高)作为状态,作为强化学习智能体Agent感知到的状态、动作a是商品排序,对策略的奖励R是用户点击了或者购买了推荐的商品。采用Q-Learning的方法直接对排序策略建模为Q(s,a),该策略更新如下:
具体的参数更新是:
Q-Learning方法不是阿里技术团队的原创,他们只是在里面奖励R上做了一点小创新。这样做的目的是原因是:在淘宝主搜这种大规模应用的场景中,较难在短时间内观察到不同的排序策略在点击和成交这样的宏观指标上的差别。在原始的奖励基础上,加上了一点经验项。
也就表示在状态上执行动作时,PV中所有商品能够被点击(或购买)的似然概率之和。经验项即:
这种奖励方式非常类似在迷宫游戏里,奖励函数不仅仅是在成功逃出迷宫给出一次性奖励,而且在迷宫里每一步都给予一个额外奖励(如距离出口越近奖励越大),引导AI快速逃出迷宫。在这里经验项就是引导用户快快点,快快买。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。