当前位置:   article > 正文

Image Caption:图像字幕生成_imagecaption

imagecaption
前言

  图像处理与自然语言处理的结合,给图像加字幕或者描述。应用前景非常广,比如早教,图像检索,盲人导航等。图像注释问题的通用解法非常接近于Encoder-Decoder结构,下面就几种方法作简单总结。

m-RNN

  Mao这篇2015-paper,根据输入语句和图片,为图片生成字幕;以DeepRNN 处理语句,用CNN处理图片。基本思路:直接将图像表示和词向量以及隐向量作为多模判断的输入。

  左侧是简单RNN结构,右侧是本文所提的m-RNN(多模式),输入是图片极其对应的语句描述。模型根据之前词和图像来评估下个词的概率分布,每一时间帧上,所有的权重都是共享的。
  两层embedding,分别表示语法和语义含义,初始化方法采用随机初始化足矣,不用专用使用pre-trained的词向量。其中多模式模块有三个输入:词向量w(t),隐状态r(t),图像表示I。隐状态

r(t)=ReLU(Urr(t1)+w(t))
,注意内部+表示元素加法。将三个输入映射到相同的多模式特征空间内:

m(t)=g2(Vww(t)+Vrr(t)+ViI)
,其中 g2(x)=1.7159tanh(2/3x),这个激活函数能够最大限度的保证梯度集中于非线性范围内,并且加快训练过程。
  关于图像的表示,“For the image representation, here we use the activation of the 7th layer of AlexNet (Krizhevsky et al. (2012)) or 15th layer of VggNet (Simonyan & Zisserman (2014))”。
  优化函数如下:
log2PPL(w1:L|I)=1Ln=1Llog2P(wn|w1:n1,I)
PPL(w1:L|I)
表示在图像 I时,句子 w1:L的混乱度。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/283345
推荐阅读
相关标签
  

闽ICP备14008679号