赞
踩
基于n-gram的精度度量。在最初的机器翻译上需要考虑准确率(不能将一些重要词汇预测错误,例如将狗翻译成人,如unigram)和流畅性(是不是正常的句子,体现在高阶的gram)。
ROUGE与BLEU的计算方式类似,都是基于n-gram,只是ROUGE只考虑了召回率Recall。
METEOR主要是考虑到有些翻译可能正确的,只是没有对上译文的情况,考虑了同义词和词性,用wordnet扩充了同义词集。在评价流畅性方面,使用了chunk的概念,将位于生成的句子中相邻位置,且在参考句子中也位于相邻位置的词称为一个块,这样n-gram越长,组成的块的数量越少,惩罚项越小。
CIDEr 首先将 n-grams 在参考译文中出现的频率编码进来,通过TF-IDF 计算每个 n-gram 的权重,将句子用 n-gram 表示成向量的形式,然后计算参考译文和候选译文之间的 TF-IDF 向量余弦距离,以此度量二者的相似性。
直观理解
bleu和meteor的计算
生成任务中的评价指标BLEU/ROUGE/METEOR
用于图像描述的评价指标CIDEr讲解
BLEU,ROUGE,METEOR,ROUGE-浅述自然语言处理机器翻译常用评价度量
NLP基础知识点:CIDEr算法
准确率、召回率和F值
准确率和召回率
准确率Precision、召回率Recall、F值 F Measure
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。