赞
踩
其实non-local就是先计算该点(点为向量,维度是通道数)与其他点(也是向量,维度是通道数)的相似度,对这个相似度进行归一化,得到各个点的权重,这个权重再对应乘以对应点的特征映射值(g(x)),加起来的结果就是当前点的输出yi,这样yi就包含了全局信息,而且利用相似度,相似度其实暗示其他点对这个点的贡献度,这样加权得来,其他点对该点联系越大,相似度越大,那么对yi的影响就越大,这也说明non-local是合理的,其实它这样就与nlp中的注意力机制原理很像,注意其中的联系
字面上也是非常容易理解non local这种操作,就是在提取某处特征时利用其周围点的信息,这个“周围”既可以是时间维度的,也可以是空间维度的。时间维度的话就如这篇文章中的视频分类例子一样,可以更好地利用时序上的信息。
看上面这个图,我们能了解到,其实在这里xi是一个向量,它是维度为通道大小,看那个f,计算相似度,计算的是当前的点与其他点的相似度,由公式(1)看出,输出的一点是该点与其他点的相似度乘以对应其他点的特征加起来所得,其实就是利用相似度当权重,然后加权可得,与全连接很类似,只不过这里对权重进行了规约(即除以C(X)那个操作),其实与我们在NLP中学的注意力机制很像
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。