NLP文本生成任务中的评价指标_不通顺 nlp

作者：知新_RL | 2024-08-16 02:11:21

踩

不通顺 nlp

1、BLEU 是最早提出的机器翻译评价指标，是所有文本评价指标的源头，怎么吹都不为过。这也是现在机器翻译评价的事实标准，有标准的 perl 测评脚本，这样大家用起来就不会有什么实现上的偏差；Python 实现也很多，我记得 NLTK 工具箱里就有。

BLEU 的大意是比较候选译文和参考译文里的 n-gram（实践中从 unigram 取到 4-gram）重合程度，重合程度越高就认为译文质量越高。选不同长度的 n-gram 是因为，unigram 的准确率可以用于衡量单词翻译的准确性，更高阶的 n-gram 的准确率可以用来衡量句子的流畅性。

这是一个只看中准确率的指标，就是说更加关心候选译文里的多少 n-gram 是对的（即在参考译文里出现了），而不在乎召回率（参考译文里有哪些 n-gram 在候选译文中没出现）。不过这不算特别严重的问题，因为 BLEU 原论文建议大家的测试集里给每个句子配备 4 条参考译文，这样就可以减小语言多样性带来的影响（然而现在很多机器翻译的测试集都是只有 1 条译文，尴尬= =）；另外还有 brevity penalty 来惩罚候选译文过短的情况（候选译文过短在机器翻译中往往意味着漏翻，也就是低召回率）。

但总的来说，现在还是普遍认为 BLEU 指标偏向于较短的翻译结果（brevity penalty 没有想象中那么强）。

2、METEOR 大意是说有时候翻译模型翻译的结果是对的，只是碰巧跟参考译文没对上（比如用了一个同义词），于是用 WordNet 等知识源扩充了一下同义词集，同时考虑了单词的词形（词干相同的词也认为是部分匹配的，也应该给予一定的奖励&#x

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/986198