赞
踩
Tom Mitchell (1998 Carnegie Mellon) says that a well-posed learning problem is defined as follows: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
如果一个计算机针对某类任务T的用P衡量的性能根据经验E来自我完善,那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能用P来衡量。
任务T:系统应该如何处理样本。(样本是从研究对象或事件中收集到的已经量化的特征集合。)
性能度量P:评估机器学习算法的能力。(特定于任务T)
经验E:从整个数据集中获取经验。
常见的两类机器学习算法:有监督&无监督
横轴是房屋大小,纵轴是房屋售价。
有一个朋友,有一套size=750的房子,想知道能卖多少钱。
有监督学习的特点:“right answers” are given 给定正确答案。
在给定的房价数据集中,每个样本我们都给出了正确的价格,即房子的实际卖价。算法的目的就是给出更多的正确答案。
更严格地说,这是一个回归问题——设法预测连续值输出。
横轴是肿瘤的尺寸,纵轴为1或0,代表是或否(是否恶性)。
有一个朋友不幸长了肿瘤,肿瘤大小给定,估计肿瘤是良性还是恶性的概率。
更严格地说,这是一个分类问题——设法预测离散值输出。
二分类(恶性/良性)、多分类(良性/类型1/类型2/类型3)
两个特征的情况:
横轴是肿瘤的大小,纵轴是年龄,蓝色圆圈代表良性,红色叉号代表恶性。
有一个朋友不幸长了肿瘤,肿瘤大小给定,年龄已知,学习算法就是画出一条直线,设法将恶性瘤和良性瘤分开。由此我们可以判断朋友的肿瘤类型。
当然也存在无穷维特征的情况。
有监督学习:观察随机变量x及其关联的值y,然后从x预测y,通常估计p(y|x)。
相比有监督学习,无监督学习的数据都具有相同的标签或者都没有标签。
我们拿到一个数据集,试图从中找到某种结构。
无监督学习算法可以把数据分为两个不同的簇。
聚类算法的部分应用:
鸡尾酒会问题是计算机语音识别领域的一个问题。当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。
该问题给定混合信号,算法将分离出鸡尾酒会中同时说话的每个人的独立信号。
无监督学习:观察随机向量x的几个样本,试图显式或隐式地学习出概率分布p(x)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。