赞
踩
1.监督学习:是一个机器学习中的方法,可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
无监督学习:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
2.分类:离散变量预测,输出是定性值。
回归:连续变量预测,输出是定量值。
3.聚类:聚类是用于寻找数据内在的分布结构。既可以作为一个单独的过程,如异常检测等;也可作为分类等其他学习任务的前驱过程。聚类是标准的无监督学习。
降维:降维主要是为了缓解维数灾难的一个重要方法。主要是通过数学变换将原始的高维属性转变到一个低维的子空间。虽然人们平时观测到的数据基本都是高维的,但实际上真正与学习任务的分布相关的往往是低纬度的分布。所以,一般可以通过最主要的几个特征维度就可以实现对数据的描述。
4.损失函数:在机器学习中,损失函数是代价函数的一部分,而代价函数则是目标函数的一种类型。
损失函数(Loss Function): 用于定义单个训练样本与真实值之间的误差;
代价函数(Cost Function): 用于定义单个批次/整个训练集样本与真实值之间的误差;
目标函数(Objective Function): 泛指任意可以被优化的函数。
损失函数用来评估模型预测值与真实值的偏离程度。通常情况下,损失函数选取的越好,模型的性能越好。不同模型间采用的损失函数一般也不一样。最常用的最小化损失函数的算法便是“梯度下降”。
5.训练集:用来训练模型内参数的数据集,Classfier直接根据训练集来调整自身获得更好的分类效果。
测试集:用来评价模型泛化能力,即之前模型使用验证集确定了超参数,使用训练集调整了参数,最后使用一个从没有见过的数据集来判断这个模型是否Work。
验证集:用于在训练过程中检验模型的状态,收敛情况。验证集通常用于调整超参数,根据几组模型验证集上的表现决定哪组超参数拥有最好的性能。同时验证集在训练过程中还可以用来监控模型是否发生过拟合,一般来说验证集表现稳定后,若继续训练,训练集表现还会继续上升,但是验证集会出现不升反降的情况,这样一般就发生了过拟合。所以验证集也用来判断何时停止训练。
6.过拟合:是指在训练集上的误差较小,但在测试集上的误差较大。
欠拟合:指在训练集上的误差较大。
7.经验风险:模型在整个训练数据集上的误差的均值。
期望风险:模型在所有可能出现的样本(包括训练集,测试集和其它未采集的样本)上的误差的均值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。