赞
踩
跨模态检索是用于跨不同的方式实施检索任务。例如图像文本,视频文本,音频文本跨模态检索。跨模态检索的主要挑战是模态差距,而跨模态检索的关键解决方案是从共享子空间中的不同模态生成新的表示形式,以便将新生成的特征应用于距离度量的计算中,例如 作为余弦距离和欧几里得距离。
多媒体检索在大数据利用中起着不可或缺的作用。过去的努力主要集中在单一媒体检索。然而,用户的需求是高度灵活的,例如用一个图像查询来检索相关的音频剪辑。因此,来自 “媒体鸿沟” 的挑战吸引了越来越多的关注,这意味着不同媒体类型的表现是不一致的。跨媒体检索是为查询和检索结果属于不同媒体类型的情况而设计的。作为一个相对较新的研究课题,其概念、方法和基准在文献中还不清楚。为了解决这些问题,我们 回顾了100多篇参考文献,给出了包括概念、方法、主要挑战和公开问题在内的概述,并建立了包括数据集和实验结果在内的基准。研究人员可以直接采用这些基准来迅速评估他们提出的方法。这将有助于他们专注于算法设计,而不是耗时的比较方法和结果。值得注意的是,我们已经构建了一个新的数据集XMedia,这是第一个公开可用的数据集,最多有 五种媒体类型(文本、图像、视频、音频和3D模型)。我们相信这一综述将吸引更多的研究者关注跨媒体检索,并对他们有所帮助。
随着文本、图像、视频、音频和3D模型等多媒体数据的快速增长,跨媒体检索变得越来越有吸引力,通过跨媒体检索,用户可以 通过提交任何媒体类型的一个查询来获得各种媒体类型的结果。例如,在参观门桥时,用户可以提交它的照片,并检索相关结果,包括文本描述、图像、视频、音频剪辑和3D模型。
多媒体检索的研究已经持续了几十年[1]。然而,过去的努力通常集中在单媒体检索上,其中查询和检索结果属于相同的媒体类型。除了单媒体检索的情况之外,已经提出了一些方法来处理一种以上的媒体类型。这样的方法旨在在检索过程中将多种媒体类型组合在一起,如[2],[3],但是查询和检索结果必须共享相同的媒体组合。例如,用户可以通过图像/文本对检索图像/文本对。虽然这些方法涉及多种媒体类型,但是它们不是为跨不同媒体类型执行检索而设计的,并且不能直接测量跨媒体的相似性,例如图像和音频剪辑之间的相似性。如今,随着数字媒体内容的生成和随处可见,用户的需求非常灵活,例如通过一次图像查询来检索相关的音频剪辑。这种检索范式被称为跨媒体检索,引起了广泛的兴趣。它比单一媒体检索更加有用和灵活,因为用户可以通过提交他们拥有的任何东西来检索他们想要的任何东西。
跨媒体检索的关键挑战是“媒体间隙”问题,这意味着不同媒体类型的表示是不一致的,并且位于不同的特征空间中,因此测量它们之间的相似性是极具挑战性的。通过分析跨媒体数据中包含的丰富相关性,已经提出了许多方法来解决这个问题。例如,当前的主流方法被设计为学习不同媒体类型的特征的中间公共空间,并且在一个公共空间中测量它们之间的相似性,这被称为 公共空间学习方法。同时,提出了跨媒体相似性度量方法,通过分析已知的数据关系直接计算跨媒体相似性,而不需要获得明确的公共空间。跨媒体检索的简要说明如图1所示。现有的大多数方法只设计用于检索两种媒体类型(主要是图像和文本),但是跨媒体检索强调媒体类型的多样性。因此,仍然存在将其他媒体类型整合到统一框架中的问题,例如视频、音频和3D模型。
由于我们对跨媒体检索的研究已经持续了几年[5]–[12],我们发现一些关键的概念、方法和基准问题在文献中仍然不清楚。为了解决这些问题,我们回顾了100多篇参考文献,旨在:
- 总结现有的工作和方法,提出一个概述,这将有助于跨媒体检索的研究。
- 建立基准,包括数据集和实验结果。这将有助于研究人员专注于算法设计,而不是耗时的比较方法和结果,因为他们可以直接采用基准来迅速评估他们提出的方法。
- 为跨媒体检索的综合评估提供新的数据集XMedia。这是第一个由多达五种媒体类型(文本、图像、视频、音频和3D模型)组成的公开数据集。
- 提出主要的挑战和公开的问题,这对跨媒体检索的进一步研究方向是重
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。