当前位置:   article > 正文

Image Captioning综述——入门_deep fragment embeddings for bidirectional image s

deep fragment embeddings for bidirectional image sentence mapping

Image Captioning综述

0.入门一《Deep Fragment Embeddings for Bidirectional Image Sentence Mapping》2014NIPS

解决问题:

集中在retrieval(检索)的问题上,没有生成description(描述)。

模型结构:

模型结构图
输入数据集每一个样例由一张图片和五个manual(人工)句子描述组成。

1)句子的处理

主要处理单词之间的关系。类似于上图右边,解析出单词之间的依赖关系,叫做triplet(R,w1,w2),R是关系,w1,w2是单词的representation,是1-of-k。
通过以下的关系吧triplet映射到一个非线性的空间:
公式一
其中,s是h维的向量特征向量,f是激活函数ReLU,WR是对应的关系矩阵,但它是需要学习的参数。We是通过训练得到的固定参数矩阵(论文中直接拿来使用)。

2)图像的处理

使用RCNN提取top19个region和一张全图作为特征。这里主要是提取最后一层的4096维的向量作为特征表示,经过以下公式映射到h维的特征空间中:
公式二
其中,Wm是需要学习的参数。

3)两个模态的学习

计算image fragment和sentence fragment的相似度:利用下式计算两个特征向量的内积:
在这里插入图片描述
这样计算相似度似乎不太妥当,因为每一个图像region的向量貌似并不能找到一个标准,而相似度作为一种距离,这里好像没有单位。但是假如认为v和s在同一特征空间的话,则说的通。因为内积就代表夹角。(希尔伯特空间)

所以对于两个模态的学习,找到一种方法把他们映射到同一特征空间非常重要。
4)损失(目标)函数

损失函数
对齐损失
全局损失
建议看下原论文(链接),解释更清楚。

参考:https://www.cnblogs.com/jie-dcai/p/6081893.html
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/857278
推荐阅读
相关标签
  

闽ICP备14008679号