赞
踩
集中在retrieval(检索)的问题上,没有生成description(描述)。
输入数据集每一个样例由一张图片和五个manual(人工)句子描述组成。
主要处理单词之间的关系。类似于上图右边,解析出单词之间的依赖关系,叫做triplet(R,w1,w2),R是关系,w1,w2是单词的representation,是1-of-k。
通过以下的关系吧triplet映射到一个非线性的空间:
其中,s是h维的向量特征向量,f是激活函数ReLU,WR是对应的关系矩阵,但它是需要学习的参数。We是通过训练得到的固定参数矩阵(论文中直接拿来使用)。
使用RCNN提取top19个region和一张全图作为特征。这里主要是提取最后一层的4096维的向量作为特征表示,经过以下公式映射到h维的特征空间中:
其中,Wm是需要学习的参数。
计算image fragment和sentence fragment的相似度:利用下式计算两个特征向量的内积:
这样计算相似度似乎不太妥当,因为每一个图像region的向量貌似并不能找到一个标准,而相似度作为一种距离,这里好像没有单位。但是假如认为v和s在同一特征空间的话,则说的通。因为内积就代表夹角。(希尔伯特空间)
建议看下原论文(链接),解释更清楚。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。