赞
踩
在学习机器学习之前,应该了解什么是机器学习?
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
这是百度百科上的介绍。就我个人而言,机器学习就是机器模仿人的学习行为,然后从数据中获取经验能力,技能的过程。简单来说,就是给机器一堆数据,让机器去学习,建立模型,然后来预测结果的过程。
那么问题来了,机器学习需要什么样的数据?有了数据,机器如何通过这些数据建立模型,这些数据机器怎样去学习?
我们知道机器学习需要足够的数据,才能学习获得模型,这个过程被叫做机器学习的训练过程。
假如我们现在手里有一堆数据,首先要将数据分为两部分,一部分让机器学习进行训练,得到训练模型,这部分叫做训练集;另一部分留给模型预测,通过预测的结果来判断机器学习的优劣,这部分叫做测试集。
理论上来讲训练集数据自然是越多模型越优,但测试集太少会让我们无法正确判断机器模型优劣。因此一般情况下样本数据会按照8:2的比例分成训练集和测试集。
当然,在建立模型之前往往也会有一个处理数据的步骤,也就是数据预处理:通常采用标准化、归一化等方式。
建立模型就是机器通过数据集的特征值获得结果也就是目标值的过程,当然像K-means聚类这种是没有目标值的。根据训练集的类型,机器学习模型大致分为以下三种。
监督学习既有特征值X,也有目标值y,大部分的机器学习算法都属于监督学习。监督学习既可以用于分类也可以用于回归。常见的监督学习算法有:K近邻算法,决策树和随机森林,逻辑斯蒂(logistic)回归,支持向量机(SVM),线性回归、岭回归、KNN。
无监督学习是没有目标值的y的,这种学习通常用于聚类,说白了就是把一堆商品分成不同的种类,对目标群体进行划分。比如淘宝京东这类电商平台就会商品进行聚类划分。常见的无监督聚类算法:K-means。
半监督学习的数据有的有标签,有的无标签。是介于有监督学习和无监督学习之间的。其中包括增强式学习:Q-Learning、TD(Temporal Difference),深度学习:DNN,CNN,RNN。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。