当前位置:   article > 正文

Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN )

deep captioning with multimodal recurrent neural networks (m-rnn)
  • 作者提出了一种多模态循环神经网络(AlexNet / VGGNet +多模式层+ RNN),用CNN提取图像特征,单词经过两层词输入到RNN中,最后将单词特征,图像特征,以及RNN的hidden一起输入到多模态层,经过Softmax生成下一个词的概率分布。RNN主要是为了保存句子前面的特征。
    • 加入两层Embedding,比单层更有效学习单词的稠密表示
    • 不使用循环层来存储视觉信息
    • 图像特征与句子描述中的每个单词一起被输入到m-RNN模型

Key Point

  • 大多数句子 - 图像多模态模型使用预先计算的词嵌入向量作为其模型的初始化,相比之下,作者随机初始化他们的单词嵌入层并从训练数据中学习它们。实验效果更好
  • 通过对Flickr8K数据集的交叉验证,对超参数(如层尺寸和非线性激活函数的选择)进行调优,然后在所有的实验中进行固定。
  • 以前的工作:将图像描述视作检索任务,首先提取句子和图像特征,将其嵌入共同的语义空间,计算图像和句子之间的距离。生成图像时,从句子数据库中检索距离最小的句子作为描述。这种方法不能自动生成丰富的描述
  • Benchmark datasets for Image Captioning: IAPR TC-12 ( Grubinger et al.(2006) ), Flickr8K ( Rashtchian et al.(2010) ), Flickr30K ( Young et al.(2014) ) and MS COCO
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/283330
推荐阅读
相关标签
  

闽ICP备14008679号