赞
踩
BLEU:用于机器翻译任务的评价。根据n-gram可以划分为多个评价指标。常见的有BLUE-1、BLUE-2、BLUE-3、BLUE-4四种,其中的数字表示连续单词的个数。BLUE-1衡量的是单词级别的准确性,高阶BLUE可以衡量句子的流畅性。
BLUE通常用来衡量一组机器产生的翻译句子集合 (candidates) 与一组人工翻译句子 (references) 的相似程度。
示例如下:
candidate: The cat sat on the mat.
reference: The cat is on the mat.
candidate {the, cat, sat, on, the, mat} 中有5个在 reference 中,即 blue1=5/6=0.83
candidate {the cat, cat sat, sat on, on the, the mat} 中有3个在 reference 中,即 blue2=3/5=0.6
candidate {the cat sat, cat sat on, sat on the, on the mat} 中有1个在 reference 中,即 blue3=1/4=0.25
candidate {the cat sat on, cat sat on the, sat on the mat}中有0个在 reference 中,即 blue4=0/3=0
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。