赞
踩
是由1959年机器学习先驱Arthur Samuel(编写了世界上第一个棋类游戏的人工智能程序)
英文原版 : Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed.
中文翻译:机器学习是这样的领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式编程获得的。
显著式编程:红色图片默认为玫瑰,黄色图片默认为菊花。那么计算机在检测到黄色图片的时候会认为它是菊花,监测到红色图片的时候会认为它是玫瑰。
非显著式编程:我们事先并不约束计算机必须总结什么规律。让计算机自己挑出最能区分菊花和玫瑰的一些规律。通过大量的图片对比,计算机可能自己总结出,菊花的花瓣是细长的,玫瑰的花瓣是圆润的。这种让计算机自己总结的规律的编程方法叫做非显著式编程。
显著式编程劣势:需要的环境局限,条件苛刻(例如统计一个区域的GDP)
非显著式编程优势:我们构造一个算法(规定行为和收益函数),让计算机自己去寻找最大化收益函数的行为。
例子:我们设计一个机器人(任务是去隔壁房间接咖啡)。显著式编程就是设计机器人向前走几步,向左走几步,然后抬起手端起杯子接咖啡。但是非显著式编程就是让机器人可以采用一系列的行为,我们规定在特定的环境下,机器人做这些行为所带来的收益,我们把它叫做收益函数(如果某个行为让机器人摔倒了,那么他的的行为收益值就是为负,撞墙行为也是如此。如果某个行为让机器人取到了咖啡,那么就要奖励机器人收益值为正)。
是由1998年Tom Mitshell的教科书中描述的。
英文原版:A computer program is said to learn from experience E with respect to some task T and some performance measure P,if its performance on T as measured by P improves with experience E.
中文翻译:一个计算机程序被称为可以学习,是指它能够针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,他在T上的被P所衡量的性能,会随着经验E的增加而提高。
ps.任务T指编写计算机程序识别菊花和玫瑰。经验E指一大堆菊花和玫瑰的图片(训练样本training samples)。性能指标P指不同的机器学习算法会有不同(识别率)。
一般来讲,训练样本越多,识别率越高。
(1)教计算机下棋
(2)垃圾邮件识别,教计算机自动识别某个邮件是垃圾邮件
(3)人脸识别,教计算机通过人脸的图像识别这个人是谁
(4)无人驾驶,较计算机自动驾驶汽车从一个指定地点到另一个指定地点
经验E和性能指标P是由设计算法的人设计的,没有标准答案,如果由你来设计算法,它们分别是什么?
我们可以上面的例子分成两类,(1)和(4)是一类,(2)和(3)是一类,划分的标准是经验E。
其中(2)和(3)经验是完全由人搜集起来输入进计算机的。
例如(2)我们需要输入很多的垃圾邮件和非垃圾邮件,同时对应每个邮件我们要告诉计算机这是垃圾邮件还是非垃圾邮件。在(3)中我们要搜集很多人脸图片,同时要告诉计算机每张人脸图片是谁。
这种告诉计算机每一个训练样本是什么的过程,叫做为训练数据打标签,所以经验E就是训练样本和标签的集合。
ps.为数据打标签需要繁琐的人工现代的人脸识别系统中,需要数千万张带有标签的人脸图片,这需要耗费数万个小时时间,因此随着人工智能的发展,为数据打标签成了一个独特的产业。
(2)和(3)的特点是,所有的经验E都是人工采集并输入计算机的。这种称之为监督学习(Supervised Learning)
(1)传统的监督学习(Traditional Supervised Learning)
特点:每一个训练数据都有对应的标签
应用:支持向量机(support vector machine)
人工神经网络(neural networks)
深度神经网络(deep neural networks)
(2)非监督学习(Unsupervised Learning)
特点:所有训练数据都没有对应的标签
应用:聚类(clustering)
EM算法(expectation- maximization algorithm)
主成分分析(principle component analysis)
(3)半监督学习(Semi-supervised Learning)
特点:训练数据中一部分有标签,一部分没有标签(标注数据是一项非常麻烦的操作,所以用少量的标注数据,然后和大量的未标注数据结合来形成更好的机器学习算法)
如果标签是连续的值,称之为回归(regression)
如果标签是离散的值,称之为分类(classification)
举例说明:
人脸识别就是分类。
第一种模式把不是同一人的标签设置为0,同一人的标签设置为1.标签是离散的值。
第二种模式:在一堆人脸中,识别其中某一人的人脸,n个人,把其标签就要设置为1 ,2,3…n
预测房价的走势就是回归(预测股票的价格,预测温度,预测人的年龄也是如此)
训练样本就是时间,标签就是平均的房价,由于房价是一个连续的变量,所以这就是一个回归的问题。
ps.如果把房价四舍五入,那么他就是离散的就是属于分类问题,所以分类和回归问题的界限非常模糊。
其中(1)和(4)经验E是由计算机与环境互动获得的。我们的程序只需要定义这些行为的收益函数(Reward function),对行为进行奖励和惩罚。例如下棋下赢了就奖励,下输了就惩罚。
我们需要设计算法,让计算机改变自己的行为模式去最大化收益函数完成机器学习的过程。也可以说计算机通过与环境的互动逐渐强化自己的行为模式,这一类就叫做强化学习(Reinforcemnet Learning)
ps.但是实际应用里,强化学习和监督学习是交替进行的,例如Alphago最开始的训练是监督学习,也就是利用网络上的高手的对局,利用监督学习获得一个还不错的初始的围棋程序。然后再对初始的围棋程序进行强化学习提升胜率
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。