赞
踩
文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数)不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量,从而进一步推动 text generation 商业化能力。
人工评价方法分为Intrinsic Evaluation,extrinsic evaluation,the evaluator和Inter-evaluator Agreement等4类,下面将简要介绍不同方法。
比较生成的文本和目标文本的属性例如流畅性,内部关联性,正确性等。
评价生成的文本在下游子任务上的表现判断其效果。但是实施的难度和成本都比intrinsic evaluation要高,故没有后者常用。该方法相当于通过文本在具体场景中的应用情况,判定文本质量。extrinsic human evaluatoin 通常在对话当中使用,通过对话的持续长度或者是用户对系统的体验排序进行评估。
通过雇佣特定的人群进行文本的评估。研究人员能够和评估人员进行直接的交流,方便掌控研究进度,实时调整。但存在耗时长,成本高等问题,同时评估人员可能会根据研究人员的喜好做出不那么客观的评价。
不同评估人员之间的分歧,能够作为一个有用的方式用以判定文本生成的效果。评估人员高度统一的结果意味着任务被很好地定义。
几种常用的表征评估一致性方法
Percent agreement:用以判定所有人一致同意的程度。
Cohen’s k:该指标能够捕捉评估一致的随机性。
Krippendorff’s alpha:判定评测人员之间的不一致性。
这些方法是基于文本的中字符串/内容的重叠,词汇的多样性,词之间的距离等方式判定整个文本的生成质量。
1.BLEU(The Bilingual Evaluation Understudy)最开始在机器翻译领域中使用,用于比较翻译文本和参考文本的相似性。研究表明 BLEU 适用于评估短文本生成任务,而不适用于长文本场景(story generation)中。原因在于它不能很好的评价上下文理解上的关联。个人觉得这个是最常见的。
2.ROUGE(Recall-Oriented Understudy for Gisting Evaluation)表示的是一系列的方法集合,常用于对有多个句子或者段落构成的长文本进行摘要生成。ROUGE值是用于衡量自然语言生成中句子流畅性的一个指标。ROUGE最开始是对文本自动摘要进行效果评估,它把自动生成的摘要和人工生成的参考摘要相比较,计算出的得分表示两者之间的相似性。rouge也用于机器翻译,image captioning,问题生成等短文本生成领域。根据计算grams的基本单元分为多种,如:rouge-{1/2/3/4},rouge-l。rouge和BLEU比较类似,可以看做是 BLEU 的改进版,专注于召回率而非精度。除此之外,rouge的问题在于它不适用于长文本生成,因为它并不能很好的提供语法等方面的信息。
ROUGE 大致分为四种(常用的是前两种):
1)ROUGE-N (将 BLEU 的精确率优化为召回率)
2)ROUGE-L (将 BLEU 的 n-gram 优化为公共子序列)
3)ROUGE-W (将 ROUGE-L 的连续匹配给予更高的奖励)
4)ROUGE-S (允许 n-gram 出现跳词 (skip))
不同的摘要任务下,选择合适的Rouge指标
1)单文档摘要任务中,ROUGE-2, ROUGE-L, ROUGE-W, 以及ROUGE-S表现很好
2)在短摘要/标题式摘要任务中,ROUGE-1, ROUGE-L, ROUGE-W,ROUGE-SU4, 以及ROUGE-SU9表现很棒
3)在多文档摘要任务中,当停用词被排除在匹配之外时,ROUGE-1, ROUGE-2, ROUGE-S4, ROUGE-S9, ROUGE-SU4, 以及ROUGE-SU9表现不错
4)排除停用词通常能改善相关性评估
使用多个reference(ideal 摘要)可以改善相关性评估。
3.meteor(The Metric for Evaluation of Translation with Explicit ORdering)的提出是为了解决BLEU的不足,与只测量精度的BLEU相比,meteor是基于unigram精度和召回率的调和平均值,可以看作是BLEU的升级版。meteor 广泛应用于机器翻译中,也适用于image captioning,question generation和summarization等领域。同时metor的变体版本可以扩展该类别中的大多数指标不包括的精确词匹配,例如词干和同义词匹配。这些变体解决了参考翻译可变性的问题,允许将词形态变体和同义词识别为有效的翻译。METEOR 也包括其他指标没有发现一些其他功能,如同义词匹配等。METEOR 用 WordNet 等知识源扩充了一下同义词集,同时考虑了单词的词形(词干相同的词也认为是部分匹配的,也应该给予一定的奖励,比如说把 likes 翻译成了 like 总比翻译成别的乱七八糟的词要好吧?)
在评价句子流畅性的时候,用了 chunk 的概念(候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个 chunk,这个对齐算法是一个有点复杂的启发式 beam serach),chunk 的数目越少意味着每个 chunk 的平均长度越长,也就是说候选译文和参考译文的语序越一致。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。