当前位置:   article > 正文

[LLM评测/评价指标]用 Python 计算文本 BLEU 分数和 ROUGE 值_批量预测并计算 bleu 和 rouge 分数

批量预测并计算 bleu 和 rouge 分数

用 Python 计算文本 BLEU 分数和 ROUGE 值

  •  2020年 08月13日

文本生成是自然语言处理 (NLP) 中常见的一类任务,例如机器翻译、自动摘要、图片标题生成等等。如何评估生成文本的质量,或者说衡量生成文本与参考文本之间的差异,是一个必须考虑的问题。目前比较常见的评估方法就是计算 BLEUBLEU 分数和 ROUGEROUGE 值。

BLEU

BLEUBLEU (Bilingual Evaluation Understudy, 双语评估替换) 一开始是为翻译工作而开发的,是一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。完美匹配的得分为 1.01.0,完全不匹配则得分为 0.00.0。尽管它还没做到尽善尽美,但它具有计算速度快、容易理解、与具体语言无关等优点。

翻译系统的 BLEUBLEU 得分不可能为 1,除非它们与参考翻译完全相同。通常一个人类翻译在四个参考翻译下的得分为 0.34680.3468,在两个参考翻译下的得分为 0.25710.2571。

BLEUBLEU 评分由 Kishore Papineni 等人在 2002 年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出。这种评测方法通过对候选翻译与参考文本中的相匹配的 n

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/865879
推荐阅读
相关标签