赞
踩
BLEU (Bilingual Evaluation Understudy,双语评估基准)是一组度量机器翻译和自然语言生成模型性能的评估指标。BLEU指标是由IBM公司提出的一种模型评估方法,以便在机器翻译领域中开发更好的翻译模型。BLEU指标根据生成的句子与人工参考句子之间的词、短语和n-gram匹配来计算模型的性能。BLEU指标通常在0和1之间取值,其中1表示完美匹配。
BLEU指标计算方法如下:
1.对于每个句子:
统计生成文本中所有n元组在参考文本中出现的次数。
如果n元组在参考文本中出现了多次,则将其计算为出现次数最多的情况。
将所有n元组在参考文本中出现的总次数称为句子的精确匹配数。
2,对于所有生成的文本:
统计生成文本中每个n元组的数量.
获取参考文本中每个n元组的最大数量,并视为生成文本的最多可能匹配数。
将所有n元组的精确匹配数相加,并将结果除以最多可能匹配数。这个分数称为BLEU分数。
BLEU指标具有较好的可解释性,直接基于n-gram重叠度来衡量生成文本和参考文本之间的相似度。但是,在句子长度较短时,BLEU表现不足。
因此,实际中通常使用bleu-1,bleu-2,bleu-3和bleu-4等四个BLEU指标来计算短语匹配的精度。然而,它存在着一些缺点,比如可能会倾向于短而不是长的句子,不能很好地衡量语法和语义问题,因此,通常需要结合其他评估指标一起使用来评估模型性能。
样例
[“你好”],[“你好”]的得分为:{‘bleu-2’: 1.0,‘bleu-4’:1.491668146240062e-154)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。