- 作者提出了一种多模态循环神经网络(AlexNet / VGGNet +多模式层+ RNN),用CNN提取图像特征,单词经过两层词输入到RNN中,最后将单词特征,图像特征,以及RNN的hidden一起输入到多模态层,经过Softmax生成下一个词的概率分布。RNN主要是为了保存句子前面的特征。
- 加入两层Embedding,比单层更有效学习单词的稠密表示
- 不使用循环层来存储视觉信息
- 图像特征与句子描述中的每个单词一起被输入到m-RNN模型
Key Point
- 大多数句子 - 图像多模态模型使用预先计算的词嵌入向量作为其模型的初始化,相比之下,作者随机初始化他们的单词嵌入层并从训练数据中学习它们。实验效果更好
- 通过对Flickr8K数据集的交叉验证,对超参数(如层尺寸和非线性激活函数的选择)进行调优,然后在所有的实验中进行固定。
- 以前的工作:将图像描述视作检索任务,首先提取句子和图像特征,将其嵌入共同的语义空间,计算图像和句子之间的距离。生成图像时,从句子数据库中检索距离最小的句子作为描述。这种方法不能自动生成丰富的描述
- Benchmark datasets for Image Captioning: IAPR TC-12 ( Grubinger et al.(2006) ), Flickr8K ( Rashtchian et al.(2010) ), Flickr30K ( Young et al.(2014) ) and MS COCO