当前位置:   article > 正文

深度学习-距离计算_街市距离

街市距离


前言

本深度学习系列是根据paddle飞浆所简单整理的,需要可自行跳转学习。本节是关于深度学习距离计算的相关内容,包括向量距离与相似度。这是只会简单记录小部分知识,目的是方便以后复习用。


一、向量距离与相似度

向量距离对应的数学知识点是向量范数。通过两个向量之间的距离或者相似度来判定这两个向量的相近程度,显然两个向量之间距离越小,相似度越高;两个向量之间距离越大,相似度越低。

1.常见的距离计算方式

1.1闵可夫斯基距离(Minkowski Distance)

Minkowski Distane对应与向量的“lp范数”,是对多个距离度量公式概括性的表述。街市距离、欧几里得距离、其特例切比雪夫距离都是其特例。分别对应着单位圆的内接正方形–>单位圆–>…圆…–>外接正方形。

1.2 街市距离(曼哈顿距离)(Manhattan Distance)
1.3 欧式距离/欧几里得距离(Euclidean distance)
1.4 切比雪夫距离(Chebyshev Distance)
1.5 海明距离(Hamming Distance)

在信息论中,两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。

1.6 加权距离

作用:使用加权距离可以消除不同量纲带来的影响,但是引出了另外一个问题—如何确定每一维特征的权重?

1.7 KL散度

作用:给定随机变量X和两个概率分布P和Q,KL散度可以用来衡量两个分布之间的差异性。

1.8 样本的规格化

原因:样本规格化的原因是不同维度的特征采用不同量纲其对应的分布范围不在相同或相似的范围之内。
作用:使用样本规格化也可以消除不同量纲带来的影响,在一定程度上与加权距离是可以相互转化的(原因是闵可夫斯基距离具有平移不变性)。
规格化的两种方法:
①归一化操作:每一维特征平移和缩放到[0,1]之间
②高斯分布:设每一维特征都符合高斯分布,通过平移和缩放使其均值为0,方差为1的标准高斯分布

2.常见的相似度函数

2.1 余弦相似度(Cosine Similarity)

如果两个向量的相似程度只与它们之间的夹角有关,而与长度无关,那么就用向量夹角的余弦来度量相似值。

2.2 皮尔逊相关系数 (Pearson Correlation Coefficient)

与2.1余弦相似度类似,实际上数据中心化之后向量之间的余弦相似度。
数据中心化的两种形式:①均值 ②向量特征均值

2.3 Jaccard 相似系数(Jaccard Coefficient)

假设有两个集合X和Y(注意这里的两者不是向量),则其计算公式为并交比

3.向量距离与相似度度量之间的关系

向量距离越小越相近;相似度越大越相近。所以说角度相似度和相关系数可以转化成距离:d(x,y) = 1 - s(x,y)。


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/873986
推荐阅读
相关标签
  

闽ICP备14008679号