当前位置:   article > 正文

机器翻译评价指标

机器翻译的评价标准

评价机器学习系统是的指标同样适用于图像或者视频描述领域。BELU、Meteor、ROUGE、CIDEr和SPICE。前两个是评测机器翻译的,第三个是评测自动摘要的,最后两个应该是为caption定制的。

1、BLEU

Bilingual Evaluation Understudy用于分析候选译文(待评价的译文)和参考译文中N元组共同出现的程度,IBM于2002年提出的。

对于一个待翻译的句子,候选译文用Ci表示,而对应的一组参考译文表示为Si={Si1,Si2,Si3,...,Sim}€S

N-gram表示N个单词长度的词组集合,另Wk表示第k组可能的n-grams

hk(Ci)表示Wk在候选译文Ci中出现的次数,hk(Sij)表示Wk在参考译文Sij中出现的次数

BLEU则根据计算对应语句中的语料库层面上的重合精度

其中k表示可能存在的n-gram序号

容易看出CPn(C,S)是一个精确度度量,在语句较短时表现更好,并不能评价翻译的完整性,所以我们引入一个惩罚因子BP(Brevity Penalty):

其中Ic表示候选译文Ci的长度,Is表示参考译文Sij的有效长度(当存在多个参考译文时,选取和Ic最接近的长度)

本质上,BLEU是一个n-gram精确度的加权几何平均,按照下式计算:

其中,N可取1,2,3,4,而Wh一般对所有n取常值,即1/n

BLEU在语料库层级上具有很好匹配的语句上表现很好,但随着n的增加,在句子层级上的匹配越来越差。

BLEU的优点是它考虑的粒度是 n-gram 而不是词,考虑了更长的匹配信息;BLEU的缺点是不管什么样的 n-gram 被匹配上了,都会被同等对待。比如说动词匹配上的重要性从直觉上讲应该是大于冠词的。

例子:

待评价译文:1:It is a guide to action which ensures that the military always obeys the commands of the party

                     2: It is to insure the troops forever hearing the activity guidebook that party direct

参考译文1:It is a guide to action that ensures that the military will forever heed Party commands

              2: It is the guidingprinciple which guarantees the military forces always being under the command of the Party

              3: It is the practical guide for the army always to heed the directions of the party

当n=1时,待评价译文1的 修正过的精确度值是17/18,待评价译文2的 修正过的精确度值是8/14

当n=2时,待评价译文1的 修正过的精确度值是10/17,待评价译文2的 修正过的精确度值是1/13

2、METEOR

METEOR标准于2004年由lavir发现在评价指标中召回率的意义后提出的

他们的研究表明,召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU),其结果和人工判断的结果有较高相关性
METEOR测度基于单精度的加权调和平均数和单字召回率,其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能,如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)m,

其中α、γ和θ均为用于评价的默认参数

式中的

类似于BLEU的做法:

这个指标的motivation之一是刚才提到的BLEU的一个缺点,就是对所有匹配上的词都同等对待,而实际上有些词应该更加重要。


转载于:https://www.cnblogs.com/xinbaby829/p/6955687.html

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/346481
推荐阅读
相关标签
  

闽ICP备14008679号