赞
踩
经过前面一些列的介绍,我们已经接触到了多种回归和分类算法。并且这些算法有一个共同的特点,那就是它们都是有监督的(supervised)学习任务。接下来,笔者就开始向大家介绍一种无监督的(unsupervised) 经典机器学习算法——聚类。同时,由于笔者仅仅只是对Kmeans框架下的聚类算法较为熟悉,因此在后续的几篇文章中笔者将只会介绍Kmeans框架下的聚类算法,包括:Kmeans、Kmeans++和WKmeans。
在正式介绍聚类之前我们先从感性上认识一下什么是聚类。聚类的核心思想就是将具有相似特征的事物给“聚”在一起,也就是说“聚”是一个动词。俗话说人以群分,物以类聚说得就是这个道理。
如图所示为三种类型的数据样本,其中每种颜色都表示一个类别。而聚类算法的目的就是就是将各个类别的样本点分开,也就是将同一种类别的样本点聚在一起。 此时可能有人会问:这不是和分类模型一样吗?刚刚接触聚类的同学难免都会面临这么一个疑问,即聚类和分类的区别在哪儿。一句话,分类能干的事儿,聚类也能干;而聚类能干的事,分类却干不了。什么意思呢?聚类的核心思想是将具有相似特征的事物给聚在一起,也就是说聚类算法最终只能告诉我们哪些样本属于同一个类别,而不能告诉我们每个样本具体属于什么类别。因此,聚类算法在训练过程中并不需要每个样本所对应的真实标签,而分类算法却不行。
假如我们有100个样本的病例数据(包含正样本和负样本),
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。