当前位置:   article > 正文

ACL'21 | 多模态数值推理新挑战,让 AI 学解几何题

ai识别几何数据

文 | 陈嘉奇
编 | 小轶

从小到大,数学都是一门令人头秃充满魅力的学科。从基本的代数、几何,到高数微积分,各类数学问题都对答题者的逻辑推理能力都有着不同程度的挑战。

而逻辑推理能力一直以来都是 AI 发展的核心目标之一。学术界对于 AI 自动解数学题的研究也已有时日。由于数学题对于各类复杂逻辑推理能力的要求,该任务往往可以作为一个很好的基准,用以评估 AI 的智能化水平。

但近年来的相关研究还是局限在数学应用题(MWPs)上。任务难点集中在如何把文字形式的问题描述,转换为数学化的推理过程。任务难度还是很高的,毕竟咱真人也没有做得特别好 (:з」∠)

可以看到,之前工作研究的这类数学题都只涉及文字形式的问题描述,整个过程是“单模态”的。但我们从小到大积攒的丰富刷题经验告诉我们:不是所有数学题都是“单模态”任务,还有一类题,是要看图说话的!我们称之为,几何题。

今天介绍的这篇 ACL'21 Finding 的论文,就在此前工作的基础上又往前进了一步,探究了如何使得 AI 自动化解答几何题。与之前的单模态问题相比,几何题的解答有以下几点全新的挑战:

  • 图表中蕴含很多文本中不具备的复杂信息,比如点、线的相互位置关系,模型需要充分地解析图表信息

  • 模型需要同时理解文本和图表,并进行跨模态的数值推理

  • 题目中还涉及一些知识点(如勾股定理)的运用,模型需要学会运用这些知识。

也就是说,几何题的解答是一个 多模态数值推理 的过程。它同时包含了多模态逻辑推理 两大热点研究主题,值得关注一下。

论文标题
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning

论文链接:
https://arxiv.org/abs/2105.14517

GitHub链接:
https://github.com/chen-judge/GeoQA

GeoQA基准

由于之前已有的几何题数据集规模极小,只有大概200题。这篇文章先从数据集入手,提出了 GeoQA 数据集,共有5010道几何题,标注了丰富的题目信息,包括题目描述题目类型运用的知识点解题的过程

▲图一:GeoQA 示例

为了规范化对解题过程的描述,该文设计了一系列所谓程序语言(program),包括一些基本操作OP、常数Const、题目变量N、过程变量V。而这些program可以直接被计算机一步一步地执行,计算出一个最终的答案。比如在图一中,(PythagoreanMinus, N0, V0) 就代表利用勾股定理和相减操作,对题目中出现的半径长度5(N0)与上一步执行得到的OE长度3(V0)进行运算,求得AE的长度为4(V1)。

也就是说,program可以作为一个桥梁,把人类的解题过程转化为计算机更容易理解的程序语言。这样神经网络模型就可以通过预测这些program,来做出可解释的数值推理。

NGS模型

在方法部分,文章提出了一个用于解决几何问题的神经网络模型Neural Geometric Solver (NGS),对几何题的多模态数据进行建模:

  • 首先使用两个编码器,分别对文本和图表信息进行编码

  • 使用一个基于协同注意力机制(co-attention)的推理模块来融合文本和图表的表征

  • 基于上一步得到的跨模态融合表征,模型用解码器直接预测出可执行的program序列。

前文也有提到过,几何题存在如何充分解析图表信息以及如何运用定理知识的挑战。所以该工作,又提出了三个辅助任务来增强NGS的语义表征能力。这三个任务分别是:拼图位置预测几何元素预测知识点预测

前两个任务是为了强化图表编码器的。由于模型里图表编码部分用的是ResNet,预训练时使用的都是一些自然图像,和我们研究的几何题图表还是有很大差异的。所以很自然地想到了,用自监督的方式来训练一个更好的图表编码器,包括拼图位置预测和几何元素预测。

拼图位置预测是把图表划分成3x3片区域,再打乱各片区域的顺序,并让模型去测它们的相对位置关系,借以增强图表编码器对图表信息的理解。几何元素预测则是让模型去预测图表中出现的几何元素,比如三角形、圆形等等,也可以起到增强图表编码器的作用。

第三个辅助任务,知识点预测,训练模型去预测每道题对应的知识点,旨在使模型能够更加准确地运用定理知识。整个数据集共涉及50个知识点,而每个问题包含一至多个知识点,因而这个预测过程也就是一个多标签分类问题。

▲NGS结构

实验

下图是一些主要的实验对比结果及分析。其中,

  • Human代表的是人类水平,是由十个很擅长几何题的学生做出来的结果。神经网络模型与之仍有很大差距,在未来还有很大的研究空间。

  • W/O Program指的是不使用文章定义的一系列program来规范化描述解题过程,而直接用分类的方式预测结果。这一类中的三个baseline是一些在VQA任务上的隐式推理模型。这类模型的性能普遍比较低,证明了program定义的必要性。

  • Text-Only是只使用文本模态求解几何题。性能较差,说明了在几何题上进行多模态推理的必要性。

  • Text-Diagram同时使用文本和图表。相比于一些简单的融合方法,本文的NGS模型取得了最好的性能。

也有 Ablation Study, 分析了本文提出的各个辅助任务的具体效果。

总结

本文首次探究了 AI 自动化解答几何题任务,搜集了大规模的几何题问答数据集GeoQA,并基于定义的program对该数据集进行了人工标注,帮助模型去理解、预测程序化的解题过程。此外,本文提出NGS模型以建模几何题多模态信息,并引入了多个辅助任务,来提升其在几何题问答任务上的性能表现。

几何题解答任务涉及了多模态逻辑推理等多个当今热点研究主题,值得关注。或许在未来,AI 也能学会自己解题,甚至充当智能教师,给教育行业带来一场颠覆性的智能变革。

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/991085
推荐阅读
相关标签
  

闽ICP备14008679号