[LLM评测/评价指标]用 Python 计算文本 BLEU 分数和 ROUGE 值_批量预测并计算 bleu 和 rouge 分数

作者：知新_RL | 2024-07-22 15:44:28

踩

批量预测并计算 bleu 和 rouge 分数

用 Python 计算文本 BLEU 分数和 ROUGE 值

2020年 08月13日

文本生成是自然语言处理 (NLP) 中常见的一类任务，例如机器翻译、自动摘要、图片标题生成等等。如何评估生成文本的质量，或者说衡量生成文本与参考文本之间的差异，是一个必须考虑的问题。目前比较常见的评估方法就是计算 BLEUBLEU 分数和 ROUGEROUGE 值。

BLEU

BLEUBLEU (Bilingual Evaluation Understudy, 双语评估替换) 一开始是为翻译工作而开发的，是一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。完美匹配的得分为 1.01.0，完全不匹配则得分为 0.00.0。尽管它还没做到尽善尽美，但它具有计算速度快、容易理解、与具体语言无关等优点。

翻译系统的 BLEUBLEU 得分不可能为 1，除非它们与参考翻译完全相同。通常一个人类翻译在四个参考翻译下的得分为 0.34680.3468，在两个参考翻译下的得分为 0.25710.2571。

BLEUBLEU 评分由 Kishore Papineni 等人在 2002 年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出。这种评测方法通过对候选翻译与参考文本中的相匹配的 n

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/865879