当前位置:   article > 正文

【论文泛读】Clue: Cross-modal Coherence Modeling for Caption Generation_cross-modal transformer for caption generation

cross-modal transformer for caption generation

作者:Malihe Alikhani, Piyush Sharma, Shengjie Li, Radu Soricut and Matthew Stone

摘要

我们使用由讨论模型的激发关系来研究图像标题的信息需求和目标。使用专门设计用于捕获图像标题相干关系的注释协议,我们从公开的图像标题对注释10,000实例。
解决对策
我们介绍了一种新的任务,用于在图像和文本一致性关系预测中学习推断,并表明可以利用这些连贯注释来学习与中间步骤的关系分类器,以及列车相干感知可控图像标题模型。

结果表明,在通过一致性关系指定的信息需求方面的一致性和质量的急剧提高。

名词解释

Cross Attention Mechanism:交叉注意力机制

参考文章

【论文分享】ACL 2020 多模态相关任务分享

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号