赞
踩
李弘毅老师回答了,机器学习就是自动找函数。
众所周知,函数就是一种输入量与输出量之间的映射关系。最简单的函数就是输入一个数字,然后通过一个具体的公式,输出一个数字。机器学习这里呢,也就是把输入变量的范围变广了,可以输入一段音频用来实现语音识别,输出说了什么;或者输入一张图片用来实现图像识别,输出图像里有什么事物。
那么问题来了:计算机真的可以直接处理音频和图像吗?答案显然是不可以的,要经过一些加工让这些东西变成数字。因为计算机程序的底层运行,说白了还是二进制0101这样子,那么不管什么程序,跑到底层,肯定还是处理数字。我们的汉字怎么变成数字?每个汉字都可以根据某个标准对应变成一段英文、数字、字符组成的编码,而该编码又可以通过某个标准变成0101的二进制。所以只要把一个东西数字化,计算机就可以处理了。比如音频的话可以把每一单位时刻音高的程度记录成数字,而图像可以通过拍到的每个像素点的RGB数据进行数字化表示。
但李老师又说这个函数可能并不能具体的表示出来,为什么呢?
因为实际生活中的变量之间的映射关系太复杂了,用数学模型的方式具体表示出来,也许可以,但太麻烦了,有的深度神经网络很多很多层,很多很多操作。并且机器学习也是比较玄学的东西,所以有些操作计算机能通过参数文件记住怎么做就行了,我们人没必要弄懂的。就比如数学建模中也有着一些黑箱模型,你并不知道这个数据输入进去之后,这个模型对数据具体做了哪些处理,但是结果和标准答案(测试集)都能对的上,那也就不去纠结这么多了。
机器学习就是这样,可以不断地用各种模型及其各种参数去把这种映射关系拟合接近出来,最后变成一个有用的函数(模型),但是这个函数具体什么样子,其实对于应用者而言,意义不是太大。这对于数学系的人来说属实带点难受,不过机器学习这种玄学的东西还是蕴含着科学的,如果真的偶然通过机器学习得到了一种从未发现的映射关系,那么去把这个函数扒出来,肯定是具有研究意义的。
这里举了一个例子,PM2.5预测模型,把今天以前的所有PM2.5数据放入函数,要能够得到一个数值,这个数值表示的是明天的PM2.5.
也就是说输出只有两个结果,对或者错,有或者没有。可以看作二叉树吧,binary...
上面三个任务,说白了机器只是产生一个数字罢了。但是这些任务只是机器学习能做的一小部分而已!做个形象的比喻,上面三个任务是进击的巨人的帕岛,海的那边是什么?是一片更大的大陆!这就是机器学习更加广泛的应用场景——生成/创造
给机器的学习资料(数据集)中包括label(标准答案)
那么机器怎么训练模型去拟合出该映射关系?通过损失函数计算损失值,然后机器会自动找出loss最低的函数。
这个就比较高端了,可以理解为机器自己累积经验作为数据集进行学习,一个活生生的例子就是下棋的阿法狗。
数据集无标答
给定函数寻找范围:不要做简答题,做选择题。一个模型就是一个函数的范围,很好理解,模型就是一堆变量和参数的加减乘除嘛,一组参数确定的模型就是一个函数,那参数不确定的模型就是无数个函数的标准样式咯,通过确定函数类型就可以框定函数的选择范围。
那么问题又来了:怎么在范围内去寻找这个我们需要的函数?——梯度下降法Gradient Descent
老板/用户:我不光要知道你这个机器对于这个问题给出的答案,我还要知道你为什么机器给出这个答案。
对输入样本故意添加一些人无法察觉的细微的干扰,导致模型以高置信度给出一个错误的输出。目前还不太懂它的意义。
如题,模型太大了,需要压缩一下。
老板/用户:不知道就是不知道,不要不懂装懂。用于猫狗识别的模型放入了凉宫春日图片,不能把凉宫认成猫狗中的一种,要报出异常说不在可识别对象范围内。
就是提高模型的适应性吧,到时候再详细讲讲
套娃 learn to learn,机器在这里学习的是可以学习的能力,即机器通过学习获得了自学的能力。目前机器学习主要还是人设计的,机器的学习能力比起人还是差了很多,如果机器能自己学习从而超过人类的学习能力,这是机器学习的一大突破。
机器不停学习最终变成大Boss
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。