当前位置:   article > 正文

K-means聚类算法_kmeans预测新数据

kmeans预测新数据

1、聚类步骤

  1. 随机设置K个特征空间内的点作为初始的聚类中⼼
  2. 对于其他每个点计算到K个中⼼的距离, 未知的点选择最近的⼀个聚类中⼼点作为标记类别
  3. 接着对着标记的聚类中⼼之后, 重新计算出每个聚类的新中⼼点(平均值)
  4. 如果计算得出的新中⼼点与原中⼼点⼀样(质⼼不再移动) , 那么结束, 否则重新进⾏第⼆步过程

通过下图解释实现流程: 

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0E0OTY2MDgxMTk=,size_16,color_FFFFFF,t_70 2、举例说明

 d81f855a87614a12b348142d6eca96df.png

1、 随机设置K个特征空间内的点作为初始的聚类中⼼(本案例中设置p1和p2)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0E0OTY2MDgxMTk=,size_16,color_FFFFFF,t_70

2、 对于其他每个点计算到K个中⼼的距离, 未知的点选择最近的⼀个聚类中⼼点作为标记类别
 

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0E0OTY2MDgxMTk=,size_16,color_FFFFFF,t_70

20210326091641280.png

3、 接着对着标记的聚类中⼼之后, 重新计算出每个聚类的新中⼼点(平均值)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0E0OTY2MDgxMTk=,size_16,color_FFFFFF,t_70

4、 如果计算得出的新中心点与原中⼼点⼀样(质⼼不再移动) , 那么结束, 否则重新进⾏第⼆步过程【经过判断, 需要重复上述步骤, 开始新⼀轮迭代。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0E0OTY2MDgxMTk=,size_16,color_FFFFFF,t_70

5、 当每次迭代结果不变时, 认为算法收敛, 聚类完成, K-Means⼀定会停下, 不可能陷⼊⼀直选质⼼的过程。
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0E0OTY2MDgxMTk=,size_16,color_FFFFFF,t_70

 3、K-means函数原型

在OpenCV中,K-means()函数原型如下所示:
retval, bestLabels, centers = kmeans(data, K, bestLabels, criteria, attempts, flags[, centers])
    data表示聚类数据,最好是np.flloat32类型的N维点集
    K表示聚类类簇数
    bestLabels表示输出的整数数组,用于存储每个样本的聚类标签索引
    criteria表示迭代停止的模式选择,这是一个含有三个元素的元组型数。格式为(type, max_iter, epsilon)
        其中,type有如下模式:
         —–cv2.TERM_CRITERIA_EPS :精确度(误差)满足epsilon停止。
         —-cv2.TERM_CRITERIA_MAX_ITER:迭代次数超过max_iter停止。
         —-cv2.TERM_CRITERIA_EPS+cv2.TERM_CRITERIA_MAX_ITER,两者合体,任意一个满足结束。
    attempts表示重复试验kmeans算法的次数,算法返回产生的最佳结果的标签
    flags表示初始中心的选择,两种方法是cv2.KMEANS_PP_CENTERS ;和cv2.KMEANS_RANDOM_CENTERS
    centers表示集群中心的输出矩阵,每个集群中心为一行数据

4、代码实现

1.K-means_gray.py

  1. # coding: utf-8
  2. import cv2
  3. import numpy as np
  4. import matplotlib.pyplot as plt
  5. # 读取原始图像灰度颜色
  6. img = cv2.imread('../img/lrn.jpg', 0)
  7. print(img.shape)
  8. # 获取图像高度、宽度
  9. rows, cols = img.shape[:]
  10. # 图像二维像素转换为一维
  11. data = img.reshape((rows * cols, 1))
  12. data = np.float32(data)
  13. # 停止条件 (type,max_iter,epsilon)
  14. criteria = (cv2.TERM_CRITERIA_EPS +
  15. cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)
  16. # 设置标签
  17. flags = cv2.KMEANS_RANDOM_CENTERS
  18. # K-Means聚类 聚集成4类
  19. compactness, labels, centers = cv2.kmeans(data, 4, None, criteria, 10, flags)
  20. # 生成最终图像
  21. dst = labels.reshape((img.shape[0], img.shape[1]))
  22. # 用来正常显示中文标签
  23. plt.rcParams['font.sans-serif'] = ['SimHei']
  24. # 显示图像
  25. titles = [u'原始图像', u'聚类图像']
  26. images = [img, dst]
  27. for i in range(2):
  28. plt.subplot(1, 2, i + 1), plt.imshow(images[i], 'gray'),
  29. plt.title(titles[i])
  30. plt.xticks([]), plt.yticks([])
  31. plt.show()

效果展示:

(图片素材前女友的,一气之下删了)

 2.K-means_RGB.py

  1. # coding: utf-8
  2. import cv2
  3. import numpy as np
  4. import matplotlib.pyplot as plt
  5. # 读取原始图像
  6. img = cv2.imread('../img/lrn.jpg')
  7. print(img.shape)
  8. # 图像二维像素转换为一维
  9. data = img.reshape((-1, 3))
  10. data = np.float32(data)
  11. # 停止条件 (type,max_iter,epsilon)
  12. criteria = (cv2.TERM_CRITERIA_EPS +
  13. cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)
  14. # 设置标签
  15. flags = cv2.KMEANS_RANDOM_CENTERS
  16. # K-Means聚类 聚集成2类
  17. compactness, labels2, centers2 = cv2.kmeans(data, 2, None, criteria, 10, flags)
  18. # K-Means聚类 聚集成4类
  19. compactness, labels4, centers4 = cv2.kmeans(data, 4, None, criteria, 10, flags)
  20. # K-Means聚类 聚集成8类
  21. compactness, labels8, centers8 = cv2.kmeans(data, 8, None, criteria, 10, flags)
  22. # K-Means聚类 聚集成16类
  23. compactness, labels16, centers16 = cv2.kmeans(data, 16, None, criteria, 10, flags)
  24. # K-Means聚类 聚集成64类
  25. compactness, labels64, centers64 = cv2.kmeans(data, 64, None, criteria, 10, flags)
  26. # 图像转换回uint8二维类型
  27. centers2 = np.uint8(centers2)
  28. res = centers2[labels2.flatten()]
  29. dst2 = res.reshape((img.shape))
  30. centers4 = np.uint8(centers4)
  31. res = centers4[labels4.flatten()]
  32. dst4 = res.reshape((img.shape))
  33. centers8 = np.uint8(centers8)
  34. res = centers8[labels8.flatten()]
  35. dst8 = res.reshape((img.shape))
  36. centers16 = np.uint8(centers16)
  37. res = centers16[labels16.flatten()]
  38. dst16 = res.reshape((img.shape))
  39. centers64 = np.uint8(centers64)
  40. res = centers64[labels64.flatten()]
  41. dst64 = res.reshape((img.shape))
  42. # 图像转换为RGB显示
  43. img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
  44. dst2 = cv2.cvtColor(dst2, cv2.COLOR_BGR2RGB)
  45. dst4 = cv2.cvtColor(dst4, cv2.COLOR_BGR2RGB)
  46. dst8 = cv2.cvtColor(dst8, cv2.COLOR_BGR2RGB)
  47. dst16 = cv2.cvtColor(dst16, cv2.COLOR_BGR2RGB)
  48. dst64 = cv2.cvtColor(dst64, cv2.COLOR_BGR2RGB)
  49. # 用来正常显示中文标签
  50. plt.rcParams['font.sans-serif'] = ['SimHei']
  51. # 显示图像
  52. titles = [u'原始图像', u'聚类图像 K=2', u'聚类图像 K=4',
  53. u'聚类图像 K=8', u'聚类图像 K=16', u'聚类图像 K=64']
  54. images = [img, dst2, dst4, dst8, dst16, dst64]
  55. for i in range(6):
  56. plt.subplot(2, 3, i + 1), plt.imshow(images[i], 'gray'),
  57. plt.title(titles[i])
  58. plt.xticks([]), plt.yticks([])
  59. plt.show()

效果展示:

(图片素材前女友的,一气之下删了)

3.K-means_athlete.py 

  1. # coding=utf-8
  2. from sklearn.cluster import KMeans
  3. """
  4. 第一部分:数据集
  5. X表示二维矩阵数据,篮球运动员比赛数据
  6. 总共20行,每行两列数据
  7. 第一列表示球员每分钟助攻数:assists_per_minute
  8. 第二列表示球员每分钟得分数:points_per_minute
  9. """
  10. X = [[0.0888, 0.5885],
  11. [0.1399, 0.8291],
  12. [0.0747, 0.4974],
  13. [0.0983, 0.5772],
  14. [0.1276, 0.5703],
  15. [0.1671, 0.5835],
  16. [0.1306, 0.5276],
  17. [0.1061, 0.5523],
  18. [0.2446, 0.4007],
  19. [0.1670, 0.4770],
  20. [0.2485, 0.4313],
  21. [0.1227, 0.4909],
  22. [0.1240, 0.5668],
  23. [0.1461, 0.5113],
  24. [0.2315, 0.3788],
  25. [0.0494, 0.5590],
  26. [0.1107, 0.4799],
  27. [0.1121, 0.5735],
  28. [0.1007, 0.6318],
  29. [0.2567, 0.4326],
  30. [0.1956, 0.4280]
  31. ]
  32. # 输出数据集
  33. print(X)
  34. """
  35. 第二部分:KMeans聚类
  36. clf = KMeans(n_clusters=3) 表示类簇数为3,聚成3类数据,clf即赋值为KMeans
  37. y_pred = clf.fit_predict(X) 载入数据集X,并且将聚类的结果赋值给y_pred
  38. """
  39. clf = KMeans(n_clusters=3)
  40. y_pred = clf.fit_predict(X)
  41. # 输出完整Kmeans函数,包括很多省略参数
  42. print(clf)
  43. # 输出聚类预测结果
  44. print("y_pred = ", y_pred)
  45. """
  46. 第三部分:可视化绘图
  47. """
  48. import matplotlib.pyplot as plt
  49. # 获取数据集的第一列和第二列数据 使用for循环获取 n[0]表示X第一列
  50. x = [n[0] for n in X]
  51. print(x)
  52. y = [n[1] for n in X]
  53. print(y)
  54. '''
  55. 绘制散点图
  56. 参数:x横轴; y纵轴; c=y_pred聚类预测结果; marker类型:o表示圆点,*表示星型,x表示点;
  57. '''
  58. plt.scatter(x, y, c=y_pred, marker='x')
  59. # 绘制标题
  60. plt.title("Kmeans-Basketball Data")
  61. # 绘制x轴和y轴坐标
  62. plt.xlabel("assists_per_minute")
  63. plt.ylabel("points_per_minute")
  64. # 设置右上角图例
  65. plt.legend(["A", "B", "C"])
  66. # 显示图形
  67. plt.show()

效果展示:

(图片素材前女友的,一气之下删了)

17861e5619c047bea0fd727174725d89.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/738431
推荐阅读
相关标签
  

闽ICP备14008679号