赞
踩
数字信息在医学、工程和金融等多个领域的叙述中扮演着重要角色。先前的工作聚焦于数值理解的基础探索,并表明细致的数值理解是一项具有挑战性的任务。在机器阅读理解中,我们的统计数据显示,以前的数据集中只有少数与数字相关的问题出现。这表明设计用于数值学习的基准数据集很少。在这篇论文中,我们提出了一个与数字相关的问题回答数据集,NQuAD,用于细致的数值理解,并为未来的工作提出了几个基线模型。我们将NQuAD与三个机器阅读理解数据集进行了比较,结果显示NQuAD比其他数据集中与数字相关的问题更具挑战性。NQuAD已根据CC BY-NC-SA 4.0许可发布,仅限学术用途。
近年来,文档中表格[14]与内容[16]的数字信息越来越受到研究者的关注。机器数字理解是一个新兴的研究主题,目前仍处于初级阶段。Naik等人[18]和Wallace等人[27]探讨了词嵌入的数字性。Spithourakis和Riedel[26]评估了语言模型的数字性。之前工作的实验结果表明,神经网络模型倾向于对接近的数字感到困惑[5, 18]。专门设计用于细粒度数字分析的数据集是必需的。在本文中,我们通过从新闻文章中选择细粒度数字选项,并要求机器预测正确的选项,创建了一个与数字相关的问答数据集,命名为NQuAD。
被认为是与数字相关的问题的问题满足以下条件之一:(1)对于机器阅读理解(MRC)问题,答案片段中至少存在一个数字;以及(2)所有答案选项都包含至少一个数字。图1展示了我们数据集中的一个示例,包括一篇新闻文章、一个问题主干和四个答案选项。基于上述定义,表1显示了三个中文MRC数据集(CMRC-2017 [9]、DRCD [24]和CMRC-2018 [8])和四个英文多项选择MRC数据集(MCTest [22]、RACE [15]、MCScript [19]和ARC [7])的统计数据。我们发现这些数据集中只收集了少数与数字相关的实例。这一发现支持了所提出数据集的独特性。
近期,数字理解能力的测试引起了许多研究者的关注。Spithourakis和Riedel[26]使用均方根误差来评估语言模型的预测性能。他们展示了在临床数据集中最佳模型的性能为989.84。Chen等人[5]提出了一个名为Numeracy-600K的数据集。在Numeracy-600K中,任务是预测市场评论和在线文章标题中空白处的数量级。他们显示,在这项任务中,机器可以达到80%的微平均F1分数,并指出当夸大的数字与真实数字之间的差异较小时,模型的表现会更差。所有之前的工作都发现,机器在处理差异显著的数字时表现良好,但对于接近的数字表现较差。这正是激发我们提出用于测试细粒度数字理解能力的数据集的原因。在本文中,我们通过从相关文章中选择四个最接近的候选项作为问题主干的选项,构建了NQuAD。在所提出的数据集中,有87.10%的问题符合选项和答案之间的平均差异小于10的条件。这表明我们的数据集更适合进行细粒度的数字理解测试。
Wallace等人[27]指出,字符级循环神经网络在学习数字理解方面表现良好。Chen等人[1]展示了添加数量级嵌入以表示数字在数值中的位置,可以为数字相关任务提供显著的改进。受到这些工作的启发,我们在提出的模型中用字符和数量级嵌入共同表示一个数字。
当提到数字理解或与数字相关的问题时,大多数人会想到数学推理[23]或数学问题解决[13]。在当前的一些研究中已经做了一些探索[11, 20]。在SQuAD 2.0[21]和DROP[11]中,分别有13.34%和68.83%的问题与数字相关。然而,与这些工作关注于学习如何回答人类阅读理解测试中的问题不同,我们关注于一个基础但重要的问题:基于给定文本选择合适的数字。这个问题之所以重要,是因为根据我们的观察,大约93%的新闻标题中的数字仅仅是复制、转述或四舍五入文章中的某个数字。这意味着,当我们尝试生成包含数字信息的标题时[6],选择正确的数字是一个重要步骤。因此,在本文中,我们提出了一个试点数据集,并探索它以解决所提出的问题。
我们从数据供应商MoneyDJ收集新闻文章,并获取了2013年6月22日至2018年6月20日期间的新闻文章。共收集了75,448篇中文新闻文章。表2显示了所收集新闻的统计数据。在这个集合中,59.74%的新闻标题包含至少一个数字,99.80%的新闻内容包含数字。
由于新闻文章是由专业记者撰写的,所以在所提出的数据集中使用的标题和文章的质量都是令人满意的。内容也是可信的。因此,我们使用标题中的数字作为所提数据集的真实值。构建NQuAD的过程如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。