赞
踩
二分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)表示,形式为参数化的logistic分布 1 e − ( w T x + b ) \frac{1}{e^{-(w^{T}x+b)}} e−(wTx+b)1。这里随机变量X取值为实数,随机变量Y取值为1或0。可以通过有监督的方法来估计模型参数。
对于两类线性可分学习任务,SVM找到一个间隔最大的超平面将两类样本分开,最大间隔能够保证该超平面具有最好的泛化能力。
优点:
缺点:
启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树
从训练集中找出k个最接近测试对象的训练对象,再从这k个训练对象中找出居于主导的类别,将其赋给测试对象。
是利用各个类别的先验概率,再利用贝叶斯公式及独立性假设计算出属性的类别概率以及对象的后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类别。
多棵决策树并行结果,进行多数表决,有效降低模型方差
从弱学习算法出发,反复学习,得到一系列的弱分类器(即基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的提升方法都是改变训练数据集的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列的弱分类器。
基于加法模型和前向分布算法,利用损失函数的负梯度作为残差训练当前的基模型
基于加法模型和前向分布算法,利用损失函数的二阶展开作为损失函数训练当前基模型
XGBoost与GBDT相比,其优势:
- 将树模型的复杂度加入到正则项中,来避免过拟合,因此泛化性能会优于GBDT。
- 损失函数用泰勒展开式展开,同时用到了一阶和二阶导数,可以加快优化速度。
- GBDT只支持CART作为基学习器,XGBoost还支持线性分类器作为基学习器。
- 引进了特征子采样,像随机森林那样,既能避免过拟合,又能减少计算。
- t支持并行处理。XGBoost的并行不是模型生成的并行,而是在特征上的并行,将特征排序后以block的形式存储在内存中,在后面迭代重复使用这个结构。
这个block也使得并行化成为了可能,其次在节点分裂时,计算每个特征的增益,最终选择增益最大的那个特征去做分割,那么各个特征的增益计算就可以开多线程进
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。