赞
踩
找到一个超平面将不同的数据分隔开,并且该使得该超平面到支持向量间的间隔最大化。
正则化:经验风险加正则化项来使得结构风险最小化,L1范数会趋向于产生少量的特征,而其他的特征的参数都是0,而 L2会选择更多的特征,这些特征的参数都会接近于0。
Dropout:在训练过程中,随机丢弃一部分神经元,从而使模型对某些特定的输入不敏感,减少了模型的依赖性,避免过拟合。当用训练好的模型进行预测时,设置dropout概率为0或者移除dropout层,此时Dropout是不起作用的。
Batch Normalization(批归一化):在每一层的激活函数之前,对每个Batch的数据进行标准化处理,使得每个特征的均值为0、方差为1,所以是在 channel维度上对每个Batch的数据进行标准化。最后,通过缩放和平移操作,将标准化后的特征映射到一个新的范围来增强模型的表达能力。
Layer Normalization(层归一化):在每个样本上,即在 C、H 和 W 这 3 个维度上进行标准化处理,即对每个样本的多个特征进行标准化处理,并且针对每个样本的所有特征分别进行缩放和平移(区别:BN针对的是单个特征)。
Early Stopping:根据交叉叉验证提前终止: 若每次训练前, 将训练数据划分为若干份, 取一份为测试集, 其他为训练集, 每次训练完立即拿此次选中的测试集自测. 因为每份都有一次机会当测试集, 所以此方法称之为交叉验证.。交叉验证的错误率最小时可以认为泛化性能最好, 这时候训练错误率虽然还在继续下降, 但也得终止继续训练了。
ID3 算法中,我们使用信息增益来选择最优分裂特征。信息增益是在当前节点选择某个特征进行分裂后,信息熵减少的程度。
C4.5 算法在 ID3 算法的基础上进行了改进,它使用信息增益比来选择最优分裂,以避免属性取值数目较多时出现偏向的情况。
CART 决策树使用基尼指数来计算最优分裂。基尼指数表示随机抽取两个样本,其类别标记不一致的概率,它越小表示样本集的纯度越高。最终,选择基尼指数最小的特征作为当前节点的划分特征。
Bagging方法有放回地采样同数量样本训练每个学习器, 然后再一起集成(简单投票);
Boosting方法使用全部样本(可调权重)依次训练每个学习器, 迭代集成(平滑加权);
Adaboost, Adaptive Boosting, 采用指数损失函数替代原本分类任务的0/1损失函数
GBDT, Gradient Boosting Decision Tree,对函数残差近似值进行梯度下降
XGboost类似于GBDT的优化版, 对函数残差近似值进行梯度下降, 迭代时利用了二阶梯度信息,是用泰勒展式二项逼近,而不是像gbdt里的就是一阶导数,对树的结构进行了正则化约束,防止模型过度复杂,降低了过拟合的可能性
判别方法:由数据直接学习决策函数 Y = f(X),或者由条件分布概率 P(Y|X)作为预测模型,即判别模型。
生成方法:由数据学习联合概率密度分布函数 P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。
-> 输入原始数据矩阵 X
-> 对 X 进行标准化处理
-> 计算样本协方差矩阵 S
-> 对 S 进行特征值分解,得到特征值和特征向量
-> 将特征向量按照特征值从大到小排序
-> 选择前 k 个特征向量作为主成分,其中 k 表示保留的主成分数目
-> 输出主成分方差贡献率和主成分权重向量
PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。
由于协方差矩阵对称,因此k个特征向量之间两两正交,也就是各主成分之间正交,正交就肯定线性不相关,可消除原始数据成分间的相互影响
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。