赞
踩
©PaperWeekly 原创 · 作者 | 龙宇星
单位 | 北京邮电大学
引言
在复杂场景中,简单的指代描述(如“黑色夹克”)常常会造成相似物品间的歧义,此时我们倾向于使用详细的视觉属性和涉及背景物体的相对方位关系(如“最左边落地衣架上有竖直条纹的黑色夹克”)来无歧义地指代场景中的具体物品。
当构建复杂场景的多模态对话助理时,我们希望它们也能够在回复中清晰准确地指代物品,这对于多模态对话助理的视觉属性理解能力,相对方位关系多跳推理能力,以及视觉属性与方位关系对齐能力都提出了很高的要求。现有多模态对话助理都没有提出有针对性的解决方案,它们只是简单地将物品视觉属性作为文本输入或将编码后的物品边界框与视觉属性拼接作为图像输入,这使得它们生成响应中物品指代十分模糊,无法准确描述视觉属性和涉及多跳的相对位置关系。
为了解决这一问题,我们提出了递增布局图(Incremental Layout Graph)和多模态问答(Multimodal Question Answering)预训练任务。我们从对话历史中抽取物品的视觉属性和方位信息来生成每一张场景图像对应的布局图,这些布局图以物品信息为节点,方位关系为边,可随新信息的加入而不断扩增。凭借递增布局图和自然语言模板即可无需人工标注,快速生成大量不同类型的多模态问答对(Question Answering Pair)用于多模态问答预训练。
我们把经过预训练得到多模态对话助理称为 SPRING,在具有代表性的复杂购物场景多模态对话数据集 SIMMC 2.0 和 SIMMC 1.0 响应生成任务,SPRING 在所有评价指标上都大幅度超过现有表现最佳的模型。
论文题目:
SPRING: Situated Conversational Agent Pretrained with Multimodal Questions from Incremental Layout Graph
论文链接:
https://arxiv.org/abs/2301.01949
代码链接:
https://github.com/LYX0501/SPRING
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。