赞
踩
机器学习的两种模型:监督学习和无监督学习
一、监督学习(supervised learning)
监督学习是实际应用中使用更多的机器学习类型
1.监督学习就是学习从x到y(即学习从输入到输出的映射的算法),关键特征就是提供学习算法的实例供机器学习,实例包括正确答案,正确答案就是输入x的正确标签y,通过比较输出y与标签y的差距,模型最终学会通过接受输入但不输出模型后的结果但给出合理的预测或猜测。
应用例子:
上面的模型中,首先使用示例x和正确标签y对模型进行训练,训练后的模型,可以接受一个全新的x并尝试产生适当的相应输出y
2.监督学习的模型
(1)回归:从无数的可能的输入中预测一个数字,eg:根据房子大小预测房价。回归的主要任务就是预测数字。
(2)分类:
例子:利用病人的医疗记录,使用机器学习判断一个肿块的肿瘤是否是恶行的。
横轴表示肿瘤的大小,纵轴表示肿瘤的性质。1表示恶性,0表示良性
在这个例子中,就只有有限多个输出(要么0要么1)。而分类问题可以不只有两种类别的输出,如可以输出是哪种癌症的恶性肿瘤
分类问题预测类别,类别不一定是数字,如预测一张照片是猫还是狗
回归与分类区别:
假设分类问题输出的是结果数字,区别在于,分类问题给出的输出是有限个的类别输出,而回归是可能是个区间的所有可能值
3.机器学习的问题中,输入值不一定只有一个,大多数都是多个输入值,如肿瘤诊断,输入值可以是年龄、肿瘤尺寸大小等。在分类问题中,模型就要拟合出良性与恶性的区分线,以此来帮助诊断肿瘤的性质。
二、无监督学习(unsupervised learning)
无监督学习就是找到一些结构或模式,或只是在数据中找到一些有趣的东西。以上面的例子,在监督学习中我们会给数据打上标签(良性或恶性),但是在无监督学习中,不打标签。即在监督学习中,输入的数据是数据本身x以及标签y;而监督学习中,输入的数据只有数据本身x,但没有标签y
无监督学习可能决定数据可以分配成两个不同的组或两个不同的集群。如上面右图,数据被分成两个部分。
1、聚类算法
一种特殊类型的无监督学习。聚类是将未标记的数据放入到不同的集群之中,如新闻,新闻文章有很多,通过聚类算法可以将同类型的,相关的新闻分组到一起。聚类算法可以自己计算哪些词表明那些文章属于同一类。
1)应用
一种据类算法应用:DNA微阵列分析。通过将人的基因进行排列,根据不同的DNA的表达从而将数据分成几种类型的人。因为实现并没有给数据打上标签,有几种类型的人,通过聚类算法,就可以自己将数据划分成几种类型。
另一种应用:公司将顾客进行聚类,把顾客分成不同的类型,为每一种类型的顾客提供更有效的服务
如将顾客分成几种集群:
集群一:学习机器学习的主要动机是寻求知识来提升技能;
集群二:主要动机是寻找发展事业的途径;
等等
总结:聚类就是在没有标签的情况下,将数据自动分组到不同的集群中,将相似的数据点组合在一起
2.异常检测
异常检测也是一种无监督学习。用来探测不寻常的事件。如金融系统中,欺诈检测非常重要,金融系统中的不寻常事件、不寻常交易会被打上标记
3.降维
当拥有一个很大数据集时,可以通过降维将数据集压缩成小得多的数据集,并且使损失的信息尽可能的少
(本文章是笔记整理,内容取自吴恩达老师机器学习课程)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。