当前位置:   article > 正文

Image Captioning概述

image captioning

Metrics的部分内容参考自知乎

任务描述

  • 输入:图片 I I I
  • 输出:由 n n n个单词组成的图片内容描述 S = { s 1 , . . . , s n } S=\{ s_1,...,s_n \} S={s1,...,sn}

应用领域

  • 图文互搜
  • (细粒度)图像检索
  • 对视觉障碍者进行辅助

主要问题

  • dataset bias
    已有方法:将cnn特征分解为object、attributes、relation、function等
    参考文献:[1] ICCV 2019 Learning to Collocate Neural Modules for Image Captioning

  • long tail
    long tail本身也算作dataset bias的一种,在很多task中普遍存在。单独列出来的原因是,有的方法专门针对long tail问题进行优化。
    已有方法:按频率多阶段训练
    参考文献:[1] CVPR 2020 Learning to Segment the Tail

  • 数据集标注昂贵
    已有方法:无监督
    参考文献:[1] CVPR 2019 Unsupervised Image Captioning
                     [2] ICCV 2019 Unpaired Image Captioning via Scene Graph Alignments

  • 模型的recall低、多样性低
    已有方法:改进损失函数、可控的Captioning
    参考文献:[1] CVPR 2020 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
                     [2] CVPR 2020 Better Captioning with Sequence-Level Exploration
                     [3] CVPR 2019 Intention Oriented Image Captions with Guiding Objects
                     [4] CVPR 2019 Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
                     [5] CVPR 2019 Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
                     [6] CVPR 2016 DenseCap: Fully Convolutional Localization Networks for Dense Captioning

  • 生成的结果不够human-like
    已有方法:使用贡献字典引入先验知识
    参考文献:[1] CVPR 2019 Auto-Encoding Scene Graphs for Image Captioning

  • 长序列建模问题
    已有方法:探索单词之间的连贯性
    参考文献:[1] CVPR 2019 Reflective Decoding Network for Image Captioning

  • 提升grounding能力
    已有方法:知识蒸馏+强化学习
    参考文献:[1] CVPR 2019 More Grounded Image Captioning by Distilling Image-Text Matching Model

  • 网络结构优化
    已有方法:对self attention进行改进
    参考文献:[1] CVPR 2020 Normalized and Geometry-Aware Self-Attention Network
    for Image Captioning

主流框架

  • encoder + decoder结构,对图片的regions信息进行编码,建立不同objects之间的关系后,使用decoder解码,生成sentence。encoder部分常使用CNN,decoder部分为RNNs,后由于Transformer的兴起,RNN被替换为了SANs(Self Attention Networks)。

常用数据集

Metrics

  • BLEU-n(Bilingual Evaluation Understudy,双语评估辅助工具):比较候选译文和参考译文里的 n-gram 的重合程度,重合程度越高就认为译文质量越高。把sentence划分成长度为n个单词的短语,统计它们在标准译文中的出现次数,除以划分总数。

  • (mBleu-4, best-k):对于一个image,选择生成的最好的k个captions,对于每个caption,计算其与其他k-1个captions的BLEU-4值,再取平均。值越低,多样性越高。

  • METEOR(Metric for Evaluation of Translation with Explicit ORdering,显式排序的翻译评估指标):计算生成结果和参考译文之间的准确率和召回率的调和平均。

  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的摘要评估辅助工具):大致分为四种:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。常用的是前两种(-N与-L)。ROUGE-N中的“N”指的是N-gram,其计算方式与BLEU类似,只是BLEU基于精确率,而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest Common Subsequence,计算的是候选摘要与参考摘要的最长公共子序列长度,长度越长,得分越高,基于F值。

  • CIDEr(Consensus-based Image Description Evaluation,基于共识的图像描述评估):把每个句子看成文档,然后计算其 TF-IDF 向量(注意向量的每个维度表示的是n-gram 而不一定是单词)的余弦夹角,据此得到候选句子和参考句子的相似度。

  • SPICE(Semantic Propositional Image Caption Evaluation,语义命题图像标题评估):SPICE 使用基于图的语义表示来编码 caption 中的 objects, attributes 和 relationships。它先将待评价 caption 和参考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于规则的方法把 dependency tree 映射成 scene graphs。最后计算待评价的 caption 中 objects, attributes 和 relationships 的 F-score 值。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号