赞
踩
1,只有一小部分与共同语义相关的区域或词,如果将它们全部整合在一起,就会干扰目标语义,从而导致语义失调。
2,并不是所有的片段都支持特定的共享语义,因为它们中的许多与之无关,如果不相关的片段被聚合,共享语义或多或少会受到干扰。
3,如果我们将焦点集中在一个方向上,就会导致对长文本或复杂图像的偏好。这是因为长文本或复杂图像包含更多的信息,从而更有可能得到较高的查询响应。所以我们采用双向度量,
即算出两个方向的相似度,然后进行相加。
我们以Text-to-Image Focal Attention为例,我们设每张图片有n个
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。