当前位置:   article > 正文

多模态推荐系统综述

多模态推荐

推荐系统(RS)已经成为在线服务不可或缺的工具。它们集成了各种深度学习技术,可以根据标识符和属性信息对用户偏好进行建模。随着短视频、新闻等多媒体服务的出现,在推荐的同时了解这些内容变得至关重要。此外,多模态特征也有助于缓解RS中的数据稀疏问题。因此,多模态推荐系统(multimodal recommendations System, MRS)近年来受到了学术界和业界的广泛关注。在本文中,我们将主要从技术角度对MRS模型进行全面的综述。本文首先总结了MRS模型的一般流程和面临的主要挑战,然后分别从特征交互、特征增强和模型优化三个方面介绍了现有的MRS模型。为了方便那些想要研究这个领域的人,我们还总结了数据集和代码资源。最后,我们讨论了一些有希望的发展方向,并对本文进行了总结。

1,引言

随着互联网的发展,出现了许多多媒体在线服务,如时尚推荐[9]、音乐推荐[11]等。近年来,得益于多模态研究[1]的发展,多模态推荐系统(multi - modal recommender systems, MRS)被设计和应用。一方面,MRS可以处理不同模态的信息,这是多媒体业务固有的特性;另一方面,MRS还可以利用项目丰富的多模态信息来缓解推荐系统中广泛存在的数据稀疏和冷启动问题。

一般来说,推荐系统利用协同信息或辅助信息,即项目的标识符(缩写为id)和列表特征。相比之下,多模态特征,如图像、音频和文本,在MRS中起着至关重要的作用。为简单起见,我们将MRS定义为:具有多模态特征的项目推荐系统。

越来越多的研究关注于MRS,因此迫切需要对其进行综述和分类。虽然现有的综述[10]已经迈出了很好的一步,但它们按照实际应用中的不同模态组织研究。与那篇综述不同的是,我们从MRS. s中使用的技术的角度组织了本篇综述。此外,我们试图收集所有最近的论文,以帮助读者了解该领域的最新进展。然后,我们将在本节的其余部分介绍一般过程和分类,以使综述更具可读性。

1.1 多模态推荐系统的流程

根据MRS的输入项,我们总结出MRS的统一流程,如图1所示。该方法分为三个步骤:原始特征提取、特征交互和推荐。我们以电影推荐为例,说明如下:

原始特征提取。每部电影都有两类特征,即表格特征和多模态特征,包括海报图像文本介绍。嵌入层用于处理表格式特征,这类似于常见的基于内容的RS[19]。多模态特征被送入不同的模态编码器。模态编码器提取表示,是用于其他领域的通用架构,如用于图像的ViT[13]和Bert[12]文本。然后,我们可以得到每个物品的表格特征多模态特征(即图像和文本)的表示,记为v

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/361422
推荐阅读
相关标签