赞
踩
点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
内容简介:
预训练视觉语言模型(VLM)在文本图像检索方面取得了显着的性能。然而,当面对他们难以理解的语言复杂的文本时,他们的性能表现会急剧下降。受分治算法和双过程理论的启发,本文将语言复杂文本视为由多个简单命题句子组成的复合命题文本,并提出了一种端到端的神经分治推理框架,称为NDCR。
它包含三个主要组成部分:
1) Divide:基于语言模型提出一种命题生成器,将复合命题文本划分为简单的命题句子并生成相应的表示
2) Conquer:利用基于预训练的 VLM 的视觉语言交互器实现简单命题句子与图像之间的交互
3) Combination: 神经符号推理器将上述子推理状态组合起来,通过神经逻辑推理方法获得最终的解决方案。
根据双过程理论,视觉语言交互器和神经符号推理器可被视为类比推理系统1和逻辑推理系统2。整个系统将会融合视觉语言模型的感知计算能力和上层神经符号运算的逻辑推断能力。我们在十分具有挑战性的上下文描述图像检索数据集IMAGECODE上进行了广泛的实验。
实验结果和分析表明,NDCR显着提高了复杂图像文本推理问题的性能,在预训练视觉语言模型基础上引入神经符号逻辑运算来解决复杂图文推理问题是可行且有效的。
论文地址:https://arxiv.org/abs/2305.02265
代码地址:https://github.com/YunxinLi/NDCR
01
背景
自从预训练视觉语言模型,如CLIP, Oscar等提出之后,图文检索任务的性能大幅度提升。如下图所示,当他们遇到复杂长文本和相似图像时,整体性能会极具下降。之前的预训练图文检索模型主要是在大量句子级别的图文对上,通过对比学习和语言Mask的学习方式训练获得的。因此,他们很难建模语言复杂的长文本。
分治思想(Divide-and-Conquer): 一种通过将复杂问题分解为较小的子问题、解决子问题并将它们组合起来以获得所需输出的学习策略。受此启发,面对复杂图文检索场景,我们可以分解其复杂文本内容,提取简单的语义信息,计算子语义块的图文推理状态和匹配结果,并通过合取的方式获取最终的结果。
人类思维的双过程理论(Dual-Process Theory):人脑思维过程包含两个思考系统:System 1擅长类比推;System 2能够进行抽象逻辑推理,适用于复杂的推理问题。在复杂图文场景中,我们可以将预训练的视觉语言模型看做类比推理系统,擅长简单的图文表示、对齐和融合。在此基础上,可引入逻辑计算系统用于解决复杂多模态推理问题,例如复杂图文检索,进一步提升整个系统的推理能力。
综合上述,我们可以将分治思想和双过程理论相结合,将长文本看成复杂逻辑命题文本,设计命题生成器来将其分解成简单的子命题,获取简单命题的表示。其次,将预训练的视觉-语言模型作为感知计算System 1,获取简单子命题在不同图像上的推理状态以及匹配结果。在子命题推断结果的合取阶段,引入神经符号计算System 2,来得到最终的逻辑推理结果。
02
方法介绍
命题生成器. 命题生成器是基于预训练语言模型 BART 的序列到序列模型。它的目的是将复杂的命题文本分解为简单命题句子的表示。为了解释简单命题表示具体代表什么,我们使用BART的解码器根据编码表示生成相应的句子。该模块首先在句子简化任务上进行微调,然后应用到该任务中,且在模型NDCR的整体训练中,参数不更新。
System 1: 命题-图像交互系统. 该模块旨在执行视觉-命题信息交互,类似于系统1。该模块基于训练的视觉语言模型OFA。该模块的输出是命题-图像的匹配分数和推理状态。我们引入了两层的Transformer结构用于不同图像之间的推理信息交互。
System 2: 神经符号推理器. 该模块负责整合简单命题的推理状态和结果,以获得图像上复杂命题最终解决方案。它由否定执行器和合取操作组成。否定执行器用于获取推理状态的否定推理状态。合取运算负责根据联合正负推理状态获得推理结果。
具体来说,通过System1,我们可以获得每个简单命题的推理状态H^{S_1}以及相应的图像命题匹配分数P^{S_{1}}。然后,我们引入神经否定执行器(具有ReLU激活函数的两层MLP)来获得命题否定和图像的推理状态,其表示为每个简单命题的否定推理状态(H^{N})。为此,我们将H^{S_1}视为每个简单命题的正推理状态,并将其输入否定执行器以获得否定推理状态H^{N}。因此,否定执行器的输入和输出是H^{S_1}和H^{N}。我们还可以通过在 H^{N} 上使用与System 1 相同的预测头来获得否定命题相应的匹配分数(P^{N})。重要的是,我们需要使用设计的损失函数对否定执行器进行局部优化,以使其执行否定计算。具体来说,我们让两个分布 P^{S_{1}} 和 P^{N} 之间的 K-L Divergence 大于某个设定值,以局部优化否定执行器。同时,否定推理状态将被输入到合取运算过程中,以获得整个神经符号推理器的最终推理状态。神经符号推理器的最终匹配损失和局部损失将共同优化否定执行器。
Combining System 1 and System 2. 该流程负责整合系统1和系统2的推理结果作为最终的解决方案。系统1的输出包含简单命题对图像的感知计算结果。系统2的输出是整体描述的逻辑推理结果。通过这样做,整个系统利用了类比系统1和逻辑系统2的优点。
03
实验结果
如下1图所示是在IMAGECODE数据集上的实验结果,NDCR比其余的基准模型都表现出更优异的性能。此外,如下2图所示,我们也对整个模型进行了消融实验,来验证不同模块的性能。通过实验结果,可以发现神经符号推理系统确实可以提升模型整体逻辑推理能力。
我们展示了两个样例来展示模型的性能。从图中可看出,设计的模型NDCR 具有一定的过程可解释性,我们能够得出不同模块的计算结果,便于分析整个系统的推理能力。
04
结论
在本文中,受分治算法和双过程理论的启发,我们引入了一种名为NDCR的端到端神经分治推理框架,以处理从语言复杂文本中进行图像检索的挑战性案例。NDCR包含一个命题生成器,将复合命题文本划分为多个简单命题句子,然后使用视觉语言交互器实现简单命题与图像的交互。为了提高逻辑推理能力,我们设计了一种神经符号推理器,根据视觉语言交互器的输出获得逻辑推理结果。这样,NDCR 在System 1(视觉语言交互器)中执行类比感知计算,在System 2(神经符号推理器)中执行高级逻辑推理。最后,我们将系统1和2的输出结果结合起来得到最终的解决方案。
所提出的方法NDCR有一些局限性,如下:
1)命题生成器中生成的简单命题句子的表示与图像编码处于不同的空间分布,这会影响其融合表示的性能。虽然我们引入复合命题文本的推理信息来缓解这个问题,但我们更希望通过提高预训练VLM的文本理解能力来解决这个问题。此外,采用VLM的预训练文本编码器来执行命题分解效果十分不好,因为它们对长文本的篇章结构的理解较差。
2)来源于视频帧的图像高度相似,模型在此类样例中的表现大幅度低于人类水平。在未来,我们可以从图像差异建模的角度对其进行改进。
3)实验结果表明,我们的方法对于中等长度描述的例子的逻辑推理是有效的,但对于较长的描述仍有改进的空间。
提
醒
点击“阅读原文”跳转至00:41:05
可以查看回放哦!
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1300多位海内外讲者,举办了逾600场活动,超600万人次观看。
我知道你
在看
哦
~
点击 阅读原文 观看回放!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。