赞
踩
(1)机器学习是人工智能的一种实现方式。
(2)深度学习是机器学习的一个方法。
(1)数据
(2)算法
(3)计算能力(CPU,GPU和TPU)
下面就根据这几个分支进行讲解:
eg:
百度语音识别:距离小于1米,中文字准确率97%以上。支持耳语,长语音,中英文混合及方言。
概念:
机器人学(Robotics)研究的是机器人的设计、制造、运作和应用,以及控制它们的计算机系统,传感反馈和信息处理。
机器人可以分为两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人、和自动载具。机器人需要不同部件和系统的写作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器。另外还有能够实现感知能力的软件,比如定位,地图测绘和目标识别。
当前阶段:
自上世纪(Robot)一词诞生以来,人们已经为工业制造业设计了很多机器人。工业机器人是增长最快的应用领域,它们在20世纪80年代将这一领域带到了应用阶段。在安川电机等公司的努力下,我们认为进入21世纪之后,机器人领域就已经进入了社会影响阶段,此时各种工业机器人已经主宰了装配生产线。此外,软体机器人在很多领域也有广泛的应用,比如在医疗行业协助手术或在金融行业自动执行承销过程。
但是,法律法规和“机器人威胁论”可能会妨碍机器人领域的发展,还有设计和制造机器人需要较高的投资。
发展历史:
我们可能获取到的数据有很多种类型,下面是数据集类型的几个实例:
eg1:
eg2:
预测房价的价格。
eg3:
数据简介:在数据集中一般:
(1)一行数据我们称为一个样本
(2)一列数据我们成为一个特征
(3)有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)
数据类型构成:
(1)数据类型1:特征值+目标值(目标值又可以分为是连续的还是离散的)
(2)数据类型2:只有特征值,没有目标值
数据分割:机器学习一般的数据集会划分为两个部分:
(1)训练数据:用于训练,构建模型
(2)测试数据:在模型检验时使用,用于评估模型是否有效
(3)划分比例:
训练集:70% 80% 75%
测试集:30% 20% 25%
就是对数进行缺失值,去除异常值等处理。目的是让机器能够更容易的处理这些数据。
特征提取:将任意数据(比如文本或图像)转换为可用于机器学习的数字特征。
特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。
特征降维:指在某些限定条件下,降低随机变量(特征)个数,因为有些特征可能不重要,或者转化为更高级别的特征,得到一组不相关“主变量”的过程。
有了经过特征工程处理过后的优质数据后,我们就可以把这些数据输入到想要训练的模型中,根据不同的场景进行拟合,在不停的训练过程中,就像有n个旋钮的密码箱,每一个旋钮就当成一个参数的大小,当所有旋钮都调成某一个合适的值的时候,密码箱就可以打开了,然后保存此时的参数值,这个时候我们就说这个模型训练好了。
模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。
(1)分类模型的评判指标有:准确率,精确率,召回率,F1-score、AUC等等
(2)回归模型的评判指标有:均方根误差(Root Mean Squared Error,RMSE),相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(Relative Absolute Error,RAE)等等
回归模型放假预测举例:
假设上面的房价预测,只有五个样本,对应的
真实值为:100,120,125,230,400
预测值为:105,119,120,230,410
那么使用均方根误差求解得:
R M S E = [ ( 100 − 105 ) 2 + ( 120 − 119 ) 2 + 5 2 + 0 2 + 1 0 2 ] 5 2 = 5.495 RMSE=\sqrt[2]{\frac{[(100-105)^2+(120-119)^2+5^2+0^2+10^2]}{5}}=5.495 RMSE=25[(100−105)2+(120−119)2+52+02+102] =5.495 越小越好。
模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。
在训练过程中,你可能会遇到如下问题:训练数据训练的很好,误差也不大,为什么在测试集上面有问题呢?当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。
欠拟合:模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。
因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。
过拟合:所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。
机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。
根据数据集组成的不同,以及要生成结果目标的不同,可以把机器学习算法分为4个种类,即:
(1)监督学习
(2)无监督学习
(3)半监督学习
(4)强化学习
输入数据是由输入特征值
和目标值
所组成。函数的输出可以是一个连续的值
(成为回归),或者输出有限个离散值
(成为分类)。
回归举例:预测房价,根据样本集拟合出一条连续曲线。
分类举例:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。
输入数据是由输入特征值
组成,没有目标值。输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行类别划分。
有监督和无监督的对比:
无监督聚类举例:根据图片找出哪些为一个类别
训练集同时包含有标记样本
数据和未标记样本
数据。
有监督和半监督的对比:
(1)监督学习训练方式:
(2)半监督学习训练方式:
实质是做决定(make decisions) 问题,即根据环境和奖惩机制自动进行决策,并且可以做连续决策。
强化举例:
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent, action, reward, environment, observation;
强化学习的目标就是获得最多的累计奖励。
监督学习和强化学习的对比
(1)独立:每次抽样之间没有关系,不会相互影响
举例:给一个骰子,每次抛骰子抛到几就是几,这是独立;如果我要抛骰子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关。
(2)同分布:每次抽样,样本服从同一个分布
举例:给一个骰子,每次抛骰子得到任意点数的概率都是六分之一,这个就是同分布
(3)独立同分布:i.i.d.,每次抽样之间独立而且同分布
相同分布
的,它是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。注意:机器学习并不总要求独立同分布,在不少问题中要求样本数据采样自同一个分布是因为希望用训练数据集得到的模型可以合理的用于测试数据集,使用独立同分布假设能够解释得通。目前一些机器学习内容已经不再必须于独立同分布假设下,一些问题会假设样本没有同分布。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。