赞
踩
机器学习是从示例中学习的方法。我们不需要编写分类的规则,而是通过提供大量的相关数据来训练它们
有监督学习
假设有可用的训练数据,每个样本都有类别标注,分类器是通过利用这些先验已知信息而设计的
无监督学习
可用的每个样本都没有类别标注,只有一组特征向量,目标是要弄清楚这些向量之间的相似性,并把相似的向量聚到一起
机器学习的任务:在数据基础上,一句一定的学习准则采用优化算法建立机器学习模型
损失函数:量化模型预测值与真实标签值之间的差异,度量单样本预测的错误程度,损失函数值越小,模型预测效果就越好
损失函数包括:0-1损失函数、平方损失函数
目标函数:最终要优化的函数,可以选择为经验风险或结构风险。K近邻和决策树算法是基于经验风险,支持向量机是基于结构风险
将学习准则得到的目标函数作为优化目标,从假设空间找到一个使得目标函数最小化/最大化的算法。参数优化算法等价于求解最优化问题的算法,即求参数的解析解或数值解。
解析解是通过严格的公式所求得的解。如果最优化问题没有解析解,需要用数值计算或启发式的方法近似求得数值解
在数值求解过程中有可能陷入局部最优解。常采用迭代法修正对最优解的估计,如梯度下降法、牛顿法、模拟退火法等
误差:模型输出与真实值的偏离程度
训练误差:模型在训练集上的误差
测试误差:模型在测试集上的误差
泛化误差:除训练集外所有样本中的预测误差
假设测试集是从样本真实分布中独立采样获得,将测试集上的测试误差作为泛化误差的近似,所以测试集要和训练集中的样本互斥
过拟合和欠拟合都需要尽量避免
回归性能的评估是指采用一定的性能度量指标考察回归模型对输出值的拟合程度
分类评价指标:为了评估分类器的性能,需要选定衡量模型分类能力的评价标准,也就是性能度量或评价指标
ROC曲线表示敏感性和特异性连续变化的综合指标。使用构图法解释敏感性和特异性的相互关系
AUC值:ROC曲线下的面积。一般认为AUC值大的模型性能相对较好
聚类:根据相似性将数据分为多类的过程
聚类标准:同类对象相似性高、不同类对象相似性低
影响聚类的重要因素:特征选择、距离函数
典型的聚类方法:划分法(需要输入类别数,适用于观测数较多的情况)、层次法(不需要输入类别数,适用于观测数较少的情况)
k均值聚类:根据相似性把数据分为k个类别,类内相似性高,类间相似性低
步骤:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。