WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)

作者：Monodyee | 2024-04-03 14:50:05

踩

estimation–action–reflection: towards deep interaction between conversatio

Estimation–Action–Reflection: Towards Deep Interaction

Between Conversational and Recommender Systems

Wenqiang Lei, Xiangnan He, Yisong Miao, Qingyun Wu, Richang Hong, Min-Yen Kan, Tat-Seng Chua

National University of Singapore, University of Science and Technology of China, University of Virginia, Hefei University of Technology

https://dl.acm.org/doi/pdf/10.1145/3336191.3371769

推荐系统结合对话技术能够动态捕捉用户偏好，同时可以克服这些静态模型的内在限制。比较成功的对话推荐系统(CRS)能够适当处理对话和推荐的交互作用。

这篇文章主要解决以下三个基本问题，关于商品属性的问题有哪些，何时推荐商品，如何对用户的线上反馈进行自适应。目前，解决这些问题缺少统一的框架。

下面是对话推荐示例

这篇文章提出一种新的CRS框架，评估-行动-反射，简称EAR，来填补这种交互框架鸿沟。这种框架包含三个较好跟用户对话的阶段。

评估，构建预测模型来估计用户对商品和商品属性的偏好；行动，基于评估阶段和对话历史来学习对话策略进而决定是否询问属性或者推荐商品；反射，用户拒绝行动阶段的推荐时，更新推荐模型。

上述三者之间的依赖为

不同的行动对各轮评估之后可推荐的商品数目关系影响示例如下

作者们给出两种对话场景，二值问题和枚举问题，针对这两个场景，作者们在Yelp和LastFM两个数据集上进行了大量实验。

实验结果表明，针对STOA方法CRM，得到了显著提升，对话轮次更少，推荐击中率达到了更高层次。

这篇文章关注的第一个问题即为应该问什么属性

第二个问题即为何时推荐商品

第三个问题即为如何对用户的线上反馈进行自适应

评估阶段的要点如下

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/355941