赞
踩
Jaccard index, 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。
两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。杰卡德相似系数是衡量两个集合相似度的一种指标(余弦距离也可以用来衡量两个集合的相似度)。
Python实现:
- def jaccard_sim(a, b):
- unions = len(set(a).union(set(b)))
- intersections = len(set(a).intersection(set(b)))
- return intersections / unions
-
- a = ['x', 'y']
- b = ['x', 'z', 'v']
- print(jaccard_sim(a, b))
杰卡德距离(Jaccard Distance) 是用来衡量两个集合差异性的一种指标,它是杰卡德相似系数的补集,被定义为1减去Jaccard相似系数。
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。