当前位置:   article > 正文

【论文泛读】中文文本蕴含类型及语块识别方法研究_文本蕴含关系rte任务效果最好的

文本蕴含关系rte任务效果最好的

摘要

文本蕴含识别(RTE)是判断两个句子语义是否具有蕴含关系的任务.近年来英文蕴含识别研究取得了较大发展,但主要是以类型判断为主,在数据中精确定位蕴含语块的研究比较少,蕴含类型识别的解释性较低.从中文文本蕴含识别(CNLI)数据中挑选 12 000 个中文蕴含句对,人工标注引起蕴含现象的语块,结合语块的语言学特征分析归纳了 7 种具体的蕴含类型.在此基础上,将中文蕴含识别任务转化为 7 分类的蕴含类型识别和蕴含语块边界-类型识别任务,在深度学习模型上达到 69.19%和 62.09%的准确率.实验结果表明,所提出的方法可以有效发现中文蕴含语块边界及与之对应的蕴含类型,为下一步研究提供了可靠的基准方法.

模型

在这里插入图片描述

总结

本文通过人工标注的方式获得了 12 000 条中文蕴含语块类型标注数据,通过分析蕴含语块的词汇、句法
和语义特征,归纳出了 3 个大类(词汇蕴含、句法结构蕴含、推理蕴含)和 7 个小类(上下位关系、近义关系、省略、结构变化、位置信息、数量关系、常识)的中文蕴含关系类型.本文工作拓展了中文文本蕴含的研究对象,有利于挖掘蕴含中的推理知识,探索语义理解中的推理机制. 在标注数据的基础上,我们利用深度学习模型实现了中文蕴含类型识别任务,创新地提出了同时预测蕴含 2020 语块和类型的中文蕴含语块-类型识别任务,探索了中文文本蕴含识别在新的任务形式上的可能性.实验结果表明:蕴含识别相关任务可以在基于大规模预训练数据的 BERT 模型上共享语义知识,有效预测句对中的符合蕴含现象的语块及其位置信息.该实验为小规模数据集上的中文文本蕴含识别任务提供了可靠的基线. 本文工作仍有待改进的地方.中文蕴含语块-类型识别有 17 个预测标签,每个标签需要同时预测语块位置信息和关系类型.标签数量多,内容复杂,预测结果比单纯预测类型的中文蕴含类型识别任务要低.在分析了蕴含类型识别实验结果后,我们发现模型难以学习蕴含数据中的近义关系,这启发我们在未来可以将外部知识加入模型中,提高预测准确率.词汇、句法结构等底层特征作为重要的模型输入,将会对模型性能产生重要影响,这些特征也将成为我们未来研究的重点关注对象.另一方面,中文蕴含类型和英文蕴含类型有部分重合,我们希望标注部分英文蕴含数据,做一组中英文蕴含识别的对比实验,比较深度学习模型在本文 3 个任务上的结果是否有差别.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/496428
推荐阅读
相关标签
  

闽ICP备14008679号