当前位置:   article > 正文

【Python机器学习】K-Means算法对人脸图像进行聚类实战(附源码和数据集)_kmeans聚类算法表情

kmeans聚类算法表情

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

K-Mean算法,即 K 均值算法,是一种常见的聚类算法。算法会将数据集分为 K 个簇,每个簇使用簇内所有样本均值来表示,将该均值称为“质心”。

算法步骤

K-Means

容易受初始质心的影响;算法简单,容易实现;算法聚类时,容易产生空簇;算法可能收敛到局部最小值。

通过聚类可以实现:发现不同用户群体,从而可以实现精准营销;对文档进行划分;社交网络中,通过圈子,判断哪些人可能互相认识;处理异常数据。

距离计算方式是 欧式距离。

  1. 1.从样本中选择 K 个点作为初始质心(完全随机)
  2. 2.计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中
  3. 3.计算每个簇内所有样本的均值,并使用该均值更新簇的质心
  4. 4.重复步骤 23 ,直到达到以下条件之一:
  5. 质心的位置变化小于指定的阈值(默认为 0.0001
  6. 达到最大迭代次数

K-Means++

K-Means++,算法受初始质心影响较小;表现上,往往优于 K-Means 算法;与 K-Means算法不同仅在于初始质心的选择方式不同

  1. 在选择初始质心上,进行优化:
  2. 1.从样本中选择 1 个点作为初始质心(完全随机)
  3. 2.对于任意一个非质心样本 x,计算x与现有最近质心距离 D(x)
  4. 3.基于距离计算概率,来选择下一个质心 x,选择距离当前质心远的点作为质心
  5. 4.重复步骤 23 ,直到选择 k 个质心为止。

Mini Batch K-Means

与 K-Means 算法相比,大大减少计算时间

  1. 在K-Means算法上发展而来
  2. 1.从数据集中随机选择部分数据,使用 K-Means 算法在这部分随机数据上聚类,获取质心
  3. 2.从数据集中随机选择部分数据,形成一个批次,将该批次数据分配给最近的质心
  4. 3.根据现有的数据集(当前批次数据 + 所有以前的数据)更新质心
  5. 4.重复步骤 23 ,直到质心变化小于指定的阀值或者达到最大迭代次数为止

k-means图像聚类实战 

人脸数据集LFW(Labeled Faces in the Wild)是一个带标签的人物脸部图片数据集

 打印数据中人物标记、人物名、数据形状、标记形状等信息如下

打印部分人脸图片如下

 

统计每个标记数量如下

 

对一张照片进行kmeans聚类结果如下 可见把图像聚成两类

 部分代码如下

  1. # -*- coding: utf-8 -*-
  2. from PIL import Image
  3. import numpy as np
  4. from sklearn.cluster import KMeans
  5. import matplotlib
  6. import matplotlib.pyplot as plt
  7. def restore_image(cb, cluster, shape):
  8. row, col, dummy = shape
  9. image = np.empty((row, col, dummy))
  10. for r in range(row):
  11. for c in range(col):
  12. image[r, c] = cb[cluster[r * col + c]]
  13. return image
  14. if __name__ ==.rcParams['font.sans-serif'] = [u'SimHei']
  15. matplotlib.rcParams['axes.unicode_minus'] = False
  16. # 聚类数2,6,30
  17. num_vq = 2
  18. im = Image.open('Tiger_Woods_0023.jpg')
  19. image = np.array(im).astype(np.float) / 255
  20. image = image[:, :, :3]
  21. image_v = image.reshape((-1, 3))
  22. kmeans = KMeans(n_clusters=num_vq, init='k-means++')
  23. N = image_v.shape[0] # 图像像素总数
  24. # 选择样本,计算聚类中心
  25. idx = np.random.randint(0, N, size=int(N * 0.7))
  26. image_sample = image_v[idx]
  27. kmeans.fit(image_sample)
  28. result = kmeans.predict(image_v) # 聚类结果
  29. print('聚类结果:\n', result)
  30. print('聚类中心:\n', kmeans.cluster_centers_)
  31. ns.cluster_centers_, result, image.shape)
  32. plt.axis('off')
  33. plt.title(u'聚类个数:%d' % num_vq, fontsize=20)
  34. plt.imshow(vq_image)
  35. # 可以使用plt.savefig('矢量化图片.png'),保存处理后的图片并对比
  36. plt.tight_layout(1.2)
  37. plt.show()
  38. import matplotlib
  39. import matplotlib.pyplot as plt
  40. image_shape = people.images[0].shape
  41. print(image_shape)
  42. print("Number of classes:",len(people.target_names))
  43. print("shape of targetss:",people.target.shape)
  44. fig, axes = plt.subplots(2, 5, figsize=(15, 8))
  45. for target, image, ax in zip(people.target, people.images, axes.ravel()):
  46. ax.imshow(image)
  47. ax.set_title(people.target_names[target])

创作不易 觉得有帮助请点赞关注收藏~~~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/129069
推荐阅读
相关标签
  

闽ICP备14008679号