当前位置:   article > 正文

Image captioning(三)-WITH ATTENTION_image captioning with a joint attention mechanism

image captioning with a joint attention mechanism by visual concept samples

摘要

背景我们已经介绍了,现在我们上篇文章的基础上面引入比较流行的Attention机制
说下本篇文章的贡献:

  1. image captioning中使用同一种框架引入两种atttention机制。
  2. 可以洞察模型观察的点在哪里where, 以及观察的是什么what
  3. 代码我只会演示第二种attention 机制

模型

  1. image encoder
    第一层还是卷积层来处理图像信息,但是这里不同的是,我们不像上一篇提到的那样直接复用已有的模型,这里直接处理原始的图片。
    为什么要处理原始图片?因为如果要做attention,那么势必要在decoder阶段需要知道聚焦在图片的哪个位置,这样我们就不能直接用encoder出来的很高级的单向量了
    需要抽取出来一些原始的特征,每个特征能够表征图像的某一部分,这样在做decoder的时候,attention机制可以知道可以聚焦在哪一块,这样就提高了decoder描述的准确性
    假设我们处理图片后生成L=196个D=512维的向量:

    a=(a1,...,aL),aiRD 

  2. decoder
    主要框架我们还是用LSTM,为了引入attention,我们稍微做下变形,就是在原有的state基础上面再增加一个图片的content的信息
    假设需要decoder的序列为:

    经典的LSTM结构:
    it=σ(wi.[Eyt1,ht1]+bi) ft=σ(wf.[Eyt1,ht1]+bf) ot=σ(wo.[Eyt1,ht1]+bo) gt=tanh(wc.[Eyt1,ht1]+bc) Ct=ftCt1+itgt ht=ottanh(Ct)

    _, (c, h) = lstm_cell(inputs=x, axis=1), state=[c, h])
    • 1

    调整后:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/857261
推荐阅读
相关标签
  

闽ICP备14008679号