赞
踩
1.轮廓系数(聚类的内部评价指标)。在sklearn里,有个函数silhouette_score可以使用,silhouette_score返回的是所有样本点轮廓系数的平均值。silhouette 是一个衡量一个结点与它属聚类相较于其它聚类的相似程度。取值范围-1到1,值越大表明这个结点更匹配其属聚类而不与相邻的聚类匹配。silhouette 可以根据任意距离度量,如 Euclidean distance , Manhattan distance。(可以用来评估簇的个数是否合适,或着辅助样本标签,值越接近于1越好)
公式:对于一个样本点,(b - a)/max(a, b),a为类内距离,b为样本点到与其最近的非此类的距离。
2.CH指标(聚类的内部评价指标)。在sklearn里,有个函数calinski_harabaz_score可以使用。通过计算类内各点与类中心的距离平方和来度量类内的紧密度(分母),通过计算类间中心点与数据集中心点距离平方和来度量数据集的分离度(分子),CH指标由分离度与紧密度的比值得到,计算速率比轮廓系数快很多。
CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。