ROUGE指标介绍_rouge分数

作者：从前慢现在也慢 | 2024-07-22 16:10:13

踩

rouge分数

ROUGE（Recall-Oriented Understudy for Gisting Evaluation，面向提要评估的召回导向替工）是一组用于评估摘要质量的指标。通过将生成的摘要与参考摘要进行比较，ROUGE可以衡量自动摘要系统的性能，特别在自然语言处理领域中非常受欢迎。

ROUGE-N：衡量候选摘要和参考摘要之间n-gram（通常是单词或双词）的重叠。
- ROUGE-1：单词（unigram）的重叠。
- ROUGE-2：双词（bigram）的重叠。
ROUGE-L：衡量候选摘要和参考摘要之间的最长公共子序列（LCS）。该指标考虑了句子层面的结构相似性。
ROUGE-W：ROUGE-L的加权版本，对较长的子序列给予更多重视。
ROUGE-S：衡量跳跃双词（skip-bigram）的重叠，即允许它们之间有间隔的单词对。

ROUGE分数基于三个主要方面计算：

举一个简单的例子，参考摘要是：“The cat sat on the mat”，候选摘要是：“The cat is on the mat”。

单词（ROUGE-1）：
- 参考摘要：{The, cat, sat, on, the, mat}
- 候选摘要：{The, cat, is, on, the, mat}
- 共同的单词：{The, cat, on, the, mat}
- 精确率：5/6 = 0.83
- 召回率：5/6 = 0.83
- F1分数：0.83
双词（ROUGE-2）：
- 参考摘要：{The cat, cat sat, sat on, on the, the mat}
- 候选摘要：{The cat, cat is, is on, on the, the mat}
- 共同的双词：{The cat, on the, the mat}
- 精确率：3/5 = 0.6
- 召回率：3/5 = 0.6
- F1分数：0.6

ROUGE广泛用于：

研究人员依赖ROUGE，因为它提供了一种定量衡量摘要质量的标准化方法。然而，ROUGE也有其局限性，例如它不考虑词语和句子的语义意义。因此，ROUGE通常与其他评估方法结合使用。

在您的情况下，生成ROUGE分数不低于70%的摘要，确保生成的内容与参考材料保持高度的相似性和相关性。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/865916