人工智能 AI项目 ROUGE评估算法简记_rougel

作者：weixin_40725706 | 2024-04-22 03:07:02

踩

rougel

ROUGE的全称是Recall-Oriented Understudy for Gisting Evaluation, 是一种基于召回率指标的评价算法.

由多个专家分别生成人工摘要, 构成标准摘要集.
将模型生成的自动摘要和人工摘要做对比, 通过统计两者之间重叠的基本单元的数量, 来评价模型摘要的表现.
通过多条人类专家的摘要做对比, 提高了评价系统的稳定性和健壮性.

在这里插入图片描述
示例：
机器摘要C: a cat is on the table
人工摘要S1: there is a cat on the table

在这里插入图片描述

优点: 直观, 简洁, 能反应文本的词序.
缺点: 区分度不高, 且当N > 3时, ROUGE-N值通常很小.

在这里插入图片描述

化简后：
在这里插入图片描述

通常beta超参值很大，第一项可以忽略

示例：
机器摘要C: a cat is on the table
人工摘要S1: there is a cat on the table

按照公式R_LCS计算,
分母len(S1) = 7,
分子LCS(C, S1) = 5 (a cat on the table),
R_LCS = 5/7, 即ROUGE-L分数等于5/7.

优点: 不要求词的连续匹配, 只要求按词的出现顺序匹配即可, 能够像n-gram一样反应句子级别的词序. 自动匹配最长公共子序列, 不需要预定义n-gram的长度超参数.

缺点: 只计算一个最长子序列, 最终的值忽略了其他备选的最长子序列及较短子序列的特征和影响.

心得：初步了解了ROUGE，简单记录一下，还有ROUGE-W和ROUGE-S两个标准，暂不记录

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/466508