当前位置:   article > 正文

入门人工智能·机器学习篇·以例子入门了解机器学习(AIML01)_人工智能最简单的学习例子

人工智能最简单的学习例子

文章内容参考《PATTERN RECOGNITION & MACHINE LEARNING》作者:CHRISTOPHER M.BISHOP 文章作者联系邮箱:humminwang@163.com

Preview (Chapter 1):

  • 作者叨叨一下人工智能 ← \quad \leftarrow
  • 以例子入门了解机器学习:多项式曲线拟合 ← \quad \leftarrow
  • 概率论
  • 模型选择
  • 高维诅咒
  • 决策论
  • 信息论

0 讲在前面的话

何为机器学习,个人通俗理解即使构造一个函数,该函数完美解释历史数据的分布或者一些特性,然后我们通过输入新的数据,从而可以得到一个和历史数据有紧密联系的预测值。

举个例子,房屋价格,一般受到面积大小、地理位置、户型等等的影响,我们构造这样一个函数,这个函数可以是符合历史数据的,比如输入历史数据(面积、地理位置、户型)得到和以前历史数据一样的价格,这个不断逼近历史数据的过程叫做学习。

之后我们输入一个新的数据,这个数据没有在历史数据中出现过,我们从而得到了一个预测值。而机器学习就是研究如何构造这样一个函数。

Q:那么入门人工智能为什么要学习机器学习???
A: 可以说现在的人工智能完全是建立在机器学习和深度学习基础上的,机器学习给智能系统提供了很大的决策根据,使得智能系统可以作出准确符合历史数据规律的决策。而深度学习即是更复杂的网络,道理和机器学习一样,同样是找到一个符合历史规律的函数,只不过这个函数不像我们传统理解的函数,参数更多,非线性等等等等。以后我们会讲深度学习。
Q:需要哪些先修知识?
A:数学主要是概率论、线性代数、微积分知识等等,如果你都没有学过,其实也没有关系,文章中我会告诉大家如何去学习这些知识,去哪里学习,不过是需要付出时间代价的,太难的话也可以和我邮箱联系,我会给你发一些数学学习资料。其次就是编程,主要用到的语言是Python,没学过的也不用怕,Python语言在机器学习方面的使用还是很基本的,入门很简单,想快速学习Python 推荐廖雪峰老师的博客https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000,学习到面向对象编程之前就可以了,只做大致的了解即可。

1 例子:多项式曲线拟合

如何进行函数构造(拟合),一个简单的方法就是多项式曲线拟合。
在这里插入图片描述
M M M是多项式的阶, w 0 , . . . . . , w M w_0,.....,w_M w0,.....,wM是多项式的参数,我们也就是学习这些参数,从而达到拟合过程。多项式拟合也被称为线性模型,因为它对于参数 w w w是线性的。参数是随着学习过程不断更新,最终达到拟合效果。如何去学习这些参数 w w w的值,可以通过最小误差函数来不断更新这些参数。
在这里插入图片描述
误差函数更像是一个标准,来判断这次拟合出来的函数是否达到目的。是通过给定真实值 t t t和预测值 y ( x n , w ) y(x_n,w) y(xn,w)的差距,我们称作真实值和预测值之间的误差。对于每个数据,我们求其误差平方的和,让该误差总和最小即可达到最优拟合效果。如上图绿色线段即为误差,红色为当前拟合的函数,蓝色是真实数据。
那么 M M M的个数我们怎么确定, M M M过大或者过小会发生什么样的情况?
在这里插入图片描述
上图中绿色线段表示真实函数,红色线段表示多项式拟合的函数,蓝色点表示真实数据(加噪音)。 M = 0 M=0 M=0时的拟合就是一条直线,随着 M M M的增大,多项式函数发生变化,但是 M M M过大时,多项式曲线为了尽量去拟合所有的数据点,函数变得复杂,我们称这种现象为过拟合。所以 M M M的值需要既可以完全表达数据,同时又不能过拟合。
在这里插入图片描述
我们用平方根误差 R M S RMS RMS来表示在参数 w w w达到最优时,误差随 M M M的变化。好处是 R M S RMS RMS可以忽略数据集大小带来的影响。随着 M M M的增大,测试集(模型最优后,用于测试准确性的数据)误差变小,随后发生猛增(过拟合)。而训练集由于不变,随着 M M M的不断变大,多项式函数会拟合所有的数据点,所以造成过拟合,误差会变为 0 0 0.

最小二乘法(最小误差平法)是最大似然方法的一种特例,过拟合问题通常伴随着最大似然方法同时出现,那么怎么避免过拟合呢?上面的例子中过拟合体现在多项式的系数,如下图:
在这里插入图片描述
简单说一下可以采用贝叶斯方法或者正则化的方式来对过拟合进行消除,在此例子基础上我们采用正则化。
在这里插入图片描述
通过公式我们可以简单理解正则化就是增加了红色公式,此部分的作用是作为惩罚项,尽力的避免出现较大系数值。
如图所示,列举了平方根误差与 λ \lambda λ值的变化情况。通过下图基本可以判断出最好的 λ \lambda λ值。
在这里插入图片描述
所以到此为止,我们基本可以说完整的运用机器学习的知识完成了一次函数拟合的任务,过程中包括如何寻找误差函数,如何优化误差函数,最终求得预测函数,从而可以利用预测函数进行预测,之后的学习更多的是不同的误差函数,不同的优化算法,甚至不同的数学模型,我们本例中只讨论了多项式曲线数学模型,之后还有更多的数学模型等待我们的去探索,总之机器学习真的很有趣QAQ!

下节预告:

概率论!(入门人工智能必修的基础数学知识,跟着老王慢慢学,下节见~~~)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/263427
推荐阅读
相关标签
  

闽ICP备14008679号