【论文泛读】Clue: Cross-modal Coherence Modeling for Caption Generation_cross-modal transformer for caption generation

作者：笔触狂放9 | 2024-07-20 14:36:27

踩

cross-modal transformer for caption generation

作者：Malihe Alikhani, Piyush Sharma, Shengjie Li, Radu Soricut and Matthew Stone

摘要

我们使用由讨论模型的激发关系来研究图像标题的信息需求和目标。使用专门设计用于捕获图像标题相干关系的注释协议，我们从公开的图像标题对注释10,000实例。
解决对策
我们介绍了一种新的任务，用于在图像和文本一致性关系预测中学习推断，并表明可以利用这些连贯注释来学习与中间步骤的关系分类器，以及列车相干感知可控图像标题模型。

结果表明，在通过一致性关系指定的信息需求方面的一致性和质量的急剧提高。

名词解释

Cross Attention Mechanism：交叉注意力机制

参考文章

【论文分享】ACL 2020 多模态相关任务分享

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】