赞
踩
BLEU,全称为Bilingual Evaluation Understudy(双语评估替换),是一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。
尽管BLEU一开始是为翻译工作而开发,但它也可以被用于评估文本的质量,这种文本是为一套自然语言处理任务而生成的。
通过本教程,你将探索BLEU评分,并使用Python中的NLTK库对候选文本进行评估和评分。
完成本教程后,你将收获:
让我们开始吧。
浅谈用Python计算文本BLEU分数
照片由Bernard Spragg. NZ提供,保留所有权。
本教程分为4个部分; 他们分别是:
双语评估替换分数(简称BLEU)是一种对生成语句进行评估的指标。
完美匹配的得分为1.0,而完全不匹配则得分为0.0。
这种评分标准是为了评估自动机器翻译系统的预测结果而开发的。尽管它还没做到尽善尽美,但还是具备了5个引人注目的优点:
BLEU评分是由Kishore Papineni等人在他们2002年的论文“ 《BLEU: a Method for Automatic Evaluation of Machine Translation》 ”中提出的。
这种评测方法通过对候选翻译与参考文本中的相匹配的n元组进行计数,其中一元组(称为1-gram或unigram)比较的是每一个单词,而二元组(bigram)比较的将是每个单词对。这种比较是不管单词顺序的。
BLEU编程实现的主要任务是对候选翻译和参考翻译的n元组进行比较,并计算相匹配的个数。匹配个数与单词的位置无关。匹配个数越多,表明候选翻译的质量就越好。
n元组匹配的计数结果会被修改,以确保将参考文本中的单词都考虑在内,而不会对产生大量合理词汇的候选翻译进行加分。在BLEU论文中这被称之为修正的n元组精度。
糟糕的是,机器翻译系统可能会生成过多的“合理”单词,从而导致翻译结果不恰当,尽管其精度高...从直观上这个问题是明显的:在识别出匹配的候选单词之后,相应的参考单词应该被视为用过了。我们将这种直觉定义为修正的单元组精度。
BLEU评分是用来比较语句的,但是又提出了一个能更好地对语句块进行评分的修订版本,这个修订版根据n元组出现的次数来使n元组评分正常化。
我们首先逐句计算n元组匹配数目。接下来,我们为所有候选句子加上修剪过的n元组计数,并除以测试语料库中的候选n元组个数,以计算整个测试语料库修正后的精度分数pn。
实际上,一个完美的分数是不可能存在的,因为这意味着翻译必须完全符合参考。甚至连人类翻译家都不能做到这点。对计算BLEU分数的参考文本的数量和质量的水平要求意味着在不同数据集之间的比较BLEU分数可能会很麻烦。
BLEU评分的范围是从0到1。很少有翻译得分为1,除非它们与参考翻译完全相同。因此,即使是一个人类翻译,也不一定会在一个大约500个句子(也就是40个普通新闻报道的长度)的测试语料上得1分,一个人类翻译在四个参考翻译下的得分为0.3468,在两个参考翻译下的得分为0.2571。
除了翻译之外,我们还可以将BLEU评分用于其他的语言生成问题,通过使用深度学习方法,例如:
以及更多。
Python自然语言工具包库(NLTK)提供了BLEU评分的实现,你可以使用它来评估生成的文本,通过与参考文本对比。
NLTK提供了sentence_bleu()函数,用于根据一个或多个参考语句来评估候选语句。
参考语句必须作为语句列表来提供,其中每个语句是一个记号列表。候选语句作为一个记号列表被提供。例如:
from nltk.translate.bleu_score import sentence_bleu reference = [['this', 'is', 'a', 'test'], ['this', 'is' 'test']] candidate = ['this', 'is', 'a', 'test'] score = sentence_bleu(reference, candidate) print(score)
运行这个例子,会输出一个满分,因为候选语句完全匹配其中一个参考语句
1.0
NLTK还提供了一个称为corpus_bleu()的函数来计算多个句子(如段落或文档)的BLEU分数。
参考文本必须被指定为文档列表,其中每个文档是一个参考语句列表,并且每个可替换的参考语句也是记号列表,也就是说文档列表是记号列表的列表的列表。候选文档必须被指定为列表,其中每个文件是一个记号列表,也就是说候选文档是记号列表的列表。
这听起来有点令人困惑; 以下是一个文档的两个参考文档的例子。
# two references for one document from nltk.translate.bleu_score import corpus_bleu references = [[['this', 'is', 'a', 'test'], ['this', 'is' 'test']]] candidates = [['this', 'is', 'a', 'test']] score = corpus_bleu(references, candidates) print(score)
运行这个例子就像之前一样输出满分
1.0
NLTK中提供的BLEU评分方法允许你在计算BLEU分数时为不同的n元组指定权重。
这使你可以灵活地计算不同类型的BLEU分数,如单独和累加的n-gram分数。
让我们来看一下。
单独的N-gram分数是对特定顺序的匹配n元组的评分,例如单个单词(称为1-gram)或单词对(称为2-gram或bigram)。
权重被指定为一个数组,其中每个索引对应相应次序的n元组。仅要计算1-gram匹配的BLEU分数,你可以指定1-gram权重为1,对于2元,3元和4元指定权重为0,也就是权重为(1,0,0,0)。例如:
# 1-gram individual BLEU from nltk.translate.bleu_score import sentence_bleu reference = [['this', 'is', 'small', 'test']] candidate = ['this', 'is', 'a', 'test'] score = sentence_bleu(reference, candidate, weights=(1, 0, 0, 0)) print(score)
运行此例将输出得分为0.5。
0.75
我们可以重复这个例子,对于从1元到4元的各个n-gram运行语句如下所示:
# n-gram individual BLEU from nltk.translate.bleu_score import sentence_bleu reference = [['this', 'is', 'a', 'test']] candidate = ['this', 'is', 'a', 'test'] print('Individual 1-gram: %f' % sentence_bleu(reference, candidate, weights=(1, 0, 0, 0))) print('Individual 2-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 1, 0, 0))) print('Individual 3-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 0, 1, 0))) print('Individual 4-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 0, 0, 1))
运行该示例,结果如下所示:
Individual 1-gram: 1.000000 Individual 2-gram: 1.000000 Individual 3-gram: 1.000000 Individual 4-gram: 1.000000
虽然我们可以计算出单独的BLEU分数,但这并不是使用这个方法的初衷,而且得出的分数也没有过多的含义,或者看起来具有说明性。
累加分数是指对从1到n的所有单独n-gram分数的计算,通过计算加权几何平均值来对它们进行加权计算。
默认情况下,sentence_bleu()和corpus_bleu()分数计算累加的4元组BLEU分数,也称为BLEU-4分数。
BLEU-4对1元组,2元组,3元组和4元组分数的权重为1/4(25%)或0.25。例如:
# 4-gram cumulative BLEU from nltk.translate.bleu_score import sentence_bleu reference = [['this', 'is', 'small', 'test']] candidate = ['this', 'is', 'a', 'test'] score = sentence_bleu(reference, candidate, weights=(0.25, 0.25, 0.25, 0.25)) print(score)
运行这个例子,输出下面的分数:
0.707106781187
累加的和单独的1元组BLEU使用相同的权重,也就是(1,0,0,0)。计算累加的2元组BLEU分数为1元组和2元组分别赋50%的权重,计算累加的3元组BLEU为1元组,2元组和3元组分别为赋33%的权重。
让我们通过计算BLEU-1,BLEU-2,BLEU-3和BLEU-4的累加得分来具体说明:
# cumulative BLEU scores from nltk.translate.bleu_score import sentence_bleu reference = [['this', 'is', 'small', 'test']] candidate = ['this', 'is', 'a', 'test'] print('Cumulative 1-gram: %f' % sentence_bleu(reference, candidate, weights=(1, 0, 0, 0))) print('Cumulative 2-gram: %f' % sentence_bleu(reference, candidate, weights=(0.5, 0.5, 0, 0))) print('Cumulative 3-gram: %f' % sentence_bleu(reference, candidate, weights=(0.33, 0.33, 0.33, 0))) print('Cumulative 4-gram: %f' % sentence_bleu(reference, candidate, weights=(0.25, 0.25, 0.25, 0.25)))
运行该示例输出下面的分数。结果的差别很大,比单独的n-gram分数更具有表达性。
Cumulative 1-gram: 0.750000 Cumulative 2-gram: 0.500000 Cumulative 3-gram: 0.632878 Cumulative 4-gram: 0.707107
在描述文本生成系统的性能时,通常会报告从BLEU-1到BLEU-4的累加分数。
在这一节中,我们试图通过一些例子来进一步获取对BLEU评分的直觉。
我们在语句层次上通过用下面的一条参考句子来说明:
the quick brown fox jumped over the lazy dog
首先,我们来看一个完美的分数。
# prefect match from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']] candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog'] score = sentence_bleu(reference, candidate) print(score)
运行例子输出一个完美匹配的分数。
1.0
接下来,让我们改变一个词,把“ quick ”改成“ fast ”。
# one word different from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']] candidate = ['the', 'fast', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog'] score = sentence_bleu(reference, candidate) print(score)
结果是分数略有下降。
0.7506238537503395
尝试改变两个词,把“ quick ”改成“ fast ”,把“ lazy ”改成“ sleepy ”。
# two words different from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']] candidate = ['the', 'fast', 'brown', 'fox', 'jumped', 'over', 'the', 'sleepy', 'dog'] score = sentence_bleu(reference, candidate) print(score)
运行这个例子,我们可以看到得分线性下降。
0.4854917717073234
如果候选语句的所有单词与参考语句的都不一样呢?
# all words different from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']] candidate = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i'] score = sentence_bleu(reference, candidate) print(score)
我们得到了一个更糟糕的分数。
0.0
现在,让我们尝试一个比参考语句的词汇更少(例如,放弃最后两个词)的候选语句,但这些单词都是正确的。
# shorter candidate from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']] candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the'] score = sentence_bleu(reference, candidate) print(score)
结果和之前的有两个单词错误的情况很相似。
0.7514772930752859
如果我们把候选语句调整为比参考语句多两个单词,那又会怎么样?
# longer candidate from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']] candidate = ['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog', 'from', 'space'] score = sentence_bleu(reference, candidate) print(score)
再一次,我们可以看到,我们的直觉是成立的,得分还是有点像“ 有两个错字 ”的情况。
0.7860753021519787
最后,我们来比较一个很短的候选语句:只有两个单词的长度。
# very short from nltk.translate.bleu_score import sentence_bleu reference = [['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']] candidate = ['the', 'quick'] score = sentence_bleu(reference, candidate) print(score)
运行此示例首先会打印一条警告消息,指出不能执行评估3元组及以上部分(直到4元组)。这是合乎情理的,因为在候选语句中我们最多只能用2元组来运行。
UserWarning: Corpus/Sentence contains 0 counts of 3-gram overlaps. BLEU scores might be undesirable; use SmoothingFunction(). warnings.warn(_msg)
接下来,我们会得到一个非常低的分数。
0.0301973834223185
你可以继续用这些例子来进行其他试验。
BLEU包含的数学知识非常简单,我也鼓励你阅读这篇论文,并在自己电子表格程序中探索计算语句评估分数的方法。
如果你要深入研究,本节将提供更多有关该主题的资源。
在本教程中,你探索了BLEU评分,根据在机器翻译和其他语言生成任务中的参考文本对候选文本进行评估和评分。
具体来说,你学到了:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。