赞
踩
“古之善为士者,微妙玄通,深不可识。
夫唯不可识。
故强为之容:豫兮,若冬涉川;犹兮,若畏四邻;俨兮,其若客;涣兮,若冰之将释;孰兮,其若朴;旷兮,其若谷;浑兮,其若浊。
孰能浊以止,静之徐清?
孰能安以久,动之徐生?”
在数据挖掘和数据分析中,经常会遇到需要知道个体数据间差异的大小,进而需要得到个体数据间的相似度,最常见的就是电商平台中对于物品的推荐以及内容平台中对于信息的推送等等。
相似度就是两个item之间的相似性,一般就是计算两个item的特征之间的距离,距离越大,相似度越小;距离越小,相似度越大;也可以两个向量间的夹角来表示,夹角越大,相似度越小;夹角越小,相似度越大;
常用的有以下四种方法:
欧几里得距离(Eucledian Distance)或称 欧氏距离
余弦相似度 (Cosine Similarity)
杰卡德相似系数(Jaccard Similarity coefficient)
皮尔逊相关系数(Pearson correlation)
欧几里得距离 or 欧氏距离
两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。