Gap Statistic算法详解

作者：小蓝xlanll | 2024-02-23 00:38:10

踩

gap statistic

在Kmean算法确定K值的问题里，可以使用手肘法，也可以用Gap statistic 算法。手肘法的缺点是不够自动化，而Gap不再需要“手肘法”式的肉眼判断，而只需要找出使Gap Statistic最大的K值即可。因此，Gap和适用于批量化作业。
Gap Statistic 定义为：
在这里插入图片描述
其中， E 是 logDk的期望，一般使用蒙特卡洛模拟产生。算法的基本过程是，首先在样本所在区域内按照均匀分布随机地产生和原始样本数一样多的随机样本，并对这个随机样本做K均值。
实际上Gap可以看做是随机样本的损失和实际样本的损失之差。假设实际样本对应的最佳簇数是 K，那么实际样本的损失应该相对较小，随机样本损失与实际样本损失之差也响应的达到最大，即Gap取得最大值所对应的K值就是最佳簇数。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/132390