赞
踩
BLEU:找出输出句子与参考句子之间的 n 元语法重叠部分并对(比参考句子)更短的输出句子施以惩罚的评价方法
NIST:它基于 n 元语法的稀缺性对其进行加权。这就意味着对某个稀缺 n 元语法的正确匹配能提高的分数,要多于对某个常见的 n 元语法的正确匹配。(http://www.mt-archive.info/HLT-2002-Doddington.pdf)
ROUGE:它对 BLEU 进行了修改,聚焦于召回率而非准确率。换句话说,该方法看重的是参考翻译句中有多少 n 元语法出现在输出句中,而不是输出句中有多少 n 元语法出现在参考翻译句中。(http://www.aclweb.org/anthology/N03-1020)
Perplexity :该方法借鉴自信息理论领域,通常被应用于语言建模。它可以对学到的与输入文本匹配的单词的概率分布的好坏进行评价。
WER(单词错误率):它是语音识别中常用的评价标准,在给定参考输入的情况下,可以对输出序列中的置换(将「the」置换为「an」)、缺失以及插入的数量进行评估。
F-score:该方法通常也叫做 F1,它是准确率(有多少预测是正确的)与召回率(做出了多少可能正确的预测)的平均值。
其他方法则是专为序列到序列任务而设计的:
STM(子树评价标准,subtree metric):它对参考翻译句和输出翻译句的句法进行比较,并对存在不同句法结构的输出进行惩罚。
METEOR :该方法类似于 BLEU,不过它增加了额外的步骤,例如考虑同义词,并对词干进行比较(因此「running」与「runs」会被计算为匹配)。此外,不像 BLEU 一样,METEOR 的设计初衷非常明确:用来比较句子而不是语料库。
TER (翻译错误率):评价将原始输出转变为可接受的达到人类水平的翻译所需要的编辑量。
TERp(翻译错误率 plus):是 TER 评价标准的一个扩展,它同样考虑释义、词干以及同义词。
hLEPOR :是一个为更好地翻译土耳其语、捷克语等形态复杂语言而设计的评价标准。此外,它还考虑有助于抓住句法信息的词性(名词、动词等)等其他因素。
RIBES:像 hLEPOR 一样,该评价标准不要求语言英语一样(形态简单)。它专门为日语、中文等更具有信息量的亚洲国家的语言而设计,同时不需要遵循单词边界。
MEWR:它大概是列表中最新的评价标准了,也是最令我兴奋的一种方法:它不要求参考翻译!(对于没有大量可用的平行语料的稀缺语言来说,这真是太棒了!)它结合利用了单词与句子向量(可以抓住句意的一些内容)以及为翻译打分的复杂度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。