赞
踩
本深度学习系列是根据paddle飞浆所简单整理的,需要可自行跳转学习。本节是关于深度学习距离计算的相关内容,包括向量距离与相似度。这是只会简单记录小部分知识,目的是方便以后复习用。
向量距离对应的数学知识点是向量范数。通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。
Minkowski Distane对应与向量的“lp范数”,是对多个距离度量公式概括性的表述。街市距离、欧几里得距离、其特例切比雪夫距离都是其特例。分别对应着单位圆的内接正方形–>单位圆–>…圆…–>外接正方形。
在信息论中,两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。
作用:使用加权距离可以消除不同量纲带来的影响,但是引出了另外一个问题—如何确定每一维特征的权重?
作用:给定随机变量X和两个概率分布P和Q,KL散度可以用来衡量两个分布之间的差异性。
原因:样本规格化的原因是不同维度的特征采用不同量纲其对应的分布范围不在相同或相似的范围之内。
作用:使用样本规格化也可以消除不同量纲带来的影响,在一定程度上与加权距离是可以相互转化的(原因是闵可夫斯基距离具有平移不变性)。
规格化的两种方法:
①归一化操作:每一维特征平移和缩放到[0,1]之间
②高斯分布:设每一维特征都符合高斯分布,通过平移和缩放使其均值为0,方差为1的标准高斯分布
如果两个向量的相似程度只与它们之间的夹角有关,而与长度无关,那么就用向量夹角的余弦来度量相似值。
与2.1余弦相似度类似,实际上数据中心化之后向量之间的余弦相似度。
数据中心化的两种形式:①均值 ②向量特征均值
假设有两个集合X和Y(注意这里的两者不是向量),则其计算公式为并交比。
向量距离越小越相近;相似度越大越相近。所以说角度相似度和相关系数可以转化成距离:d(x,y) = 1 - s(x,y)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。