赞
踩
贴一下汇总贴:论文阅读记录
论文链接:《BARTScore: Evaluating Generated Text as Text Generation》
各种各样的 NLP 应用程序,例如机器翻译、摘要和对话,都涉及文本生成。这些应用程序面临的一个主要挑战是如何评估此类生成的文本是否真正流畅、准确或有效。在这项工作中,我们将生成文本的评估概念化为文本生成问题,使用预训练的序列到序列模型进行建模。一般的想法是,当生成的文本更好时,训练模型将生成的文本转换为参考输出或源文本将获得更高的分数。我们使用 BART(一种基于编码器-解码器的预训练模型)来实现这一想法,并提出了一个具有多种变体的度量 BARTScore,这些变体可以以无监督的方式灵活应用于从不同角度(例如信息量、流畅度、或事实)。BARTScore 在概念上很简单,在经验上也很有效。它可以在 22 个测试设置中的 16 个测试设置中优于现有的最高分指标,涵盖对 16 个数据集的评估(例如,机器翻译、文本摘要)和 7 个不同的角度(例如,信息量、事实性)。计算 BARTScore 的代码可在github,并且我们在 ExplainaBoard 平台上的这个 github
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。