赞
踩
作者:Malihe Alikhani, Piyush Sharma, Shengjie Li, Radu Soricut and Matthew Stone
我们使用由讨论模型的激发关系来研究图像标题的信息需求和目标。使用专门设计用于捕获图像标题相干关系的注释协议,我们从公开的图像标题对注释10,000实例。
解决对策
我们介绍了一种新的任务,用于在图像和文本一致性关系预测中学习推断,并表明可以利用这些连贯注释来学习与中间步骤的关系分类器,以及列车相干感知可控图像标题模型。
结果表明,在通过一致性关系指定的信息需求方面的一致性和质量的急剧提高。
Cross Attention Mechanism:交叉注意力机制
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。