用于图像描述的评价指标CIDEr讲解_cider指标

作者：繁依Fanyi0 | 2024-08-01 14:16:31

踩

cider指标

参考文献：《CIDEr: Consensus-based Image Description Evaluation》

1. 主要思想

CIDEr是专门用于评价图像描述(image caption)任务的评价指标，当然用于其他相关文本生成类任务也是可以的。相较于常用于文本翻译的评价指标BLEU、ROUGE来说，CIDEr更接近人类去判断两个句子是否相近的原理，因为它利用了TF-IDF来对不同n-gram去赋予不同的权重，直观的来说，即经常出现的词组的权重具有更低的权重，而不常出现的词组则更特殊（具有更大的权重），人们会更注意这些特殊的单词。
例如：
I go to the garden this afternoon.
上述句子中，类似于go to这样的表达是比较常见的，而garden则不会经常出现，需要重点关注。

2. 计算公式

（1） TF-IDF

CIDEr的一个重要思想就是基于TF-IDF去给不同的n-gram赋予不同的权重，TF-IDF的计算公式如下：
$g_k(s_{ij})=\frac{h_k(s_{ij})}{\sum_{w_l\in\Omega}}\log(\frac{I}{\sum_{I_p\in{I}}\min(1,\sum_qh_k(s_{pq})) })$
其中，

$h_k(s_{ij})$ 表示词组 $w_{ij}$ 在参考句子 $s_{ij}$ 中出现的次数， $\Omega$ 表示所有n-gram的全部词汇， $I$ 代表数据集中所有图像的个数（即所有文件的个数）。
$\frac{h_k(s_{ij})}{\sum_{w_l\in\Omega}}$ 代表TF (term frequence)，如果一个n-gram在参考句子中出现的次数越多，则TF值越高；
$\log(\frac{I}{\sum_{I_p\in{I}}\min(1,\sum_qh_k(s_{pq}))})$ 代表IDF (inverse document frequency)，如果一个n-gram在所有文档中出现的次数越多，则IDF值越低。

（2）CIDEr

用于计算n-gram的CIDEr_n的计算公式如下：
$\text{CIDEr}_n(c_i,S_i)=\frac{1}{m}\sum_j\frac{g^n(c_i)\cdot g^n(s_{ij})}{\parallel g^n(c_i)\parallel \parallel g^n(s_{ij}\parallel }$
和BLEU、ROUGE一样，CIDEr也可以计算不同n-gram的聚合：
$\text{CIDEr}(c_i,S_i)=\sum_{n=1}^{N}w_n\text{CIDEr}_n(c_i,S_i)$ ，通常 $N = 4$ .

至此，CIDEr的计算公式就出来了。但是单看上述公式，CIDEr的最大值应该为1对吧，但是很多文献中都出现了CIDEr大于1的情况，这是为什么呢？
因为原作者还额外考虑到了有时候会出现不常见单词重复很多次会得到更高的分数的情况，引入了高斯惩罚，并限制预测结果中多次出现某个单词的次数，得到了CIDEr-D！

(3) CIDEr-D

$\text{CIDEr-D}_n(c_i,S_i)=\frac{10}{m}\sum_je^{\frac{-(l(c_i)-l(s_{ij}))^2}{2\delta^2}}\cdot \frac{\min(g^n(c_i),g^n(s_{ij}))\cdot g^n(s_{ij})}{\parallel g^n(c_i)\parallel \parallel g^n(s_{ij}\parallel }$
可以看到由于前面增加了一个10的倍数，所以理论上CIDEr-D的最大值应该是10，而不是1，这也是一些文献中CIDEr的值大于1的原因啦！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/914485