赞
踩
集成算法大致可以分为:Bagging,Boosting 和Stacking等类型。
例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True
随机森林够造过程中的关键步骤(M表示特征数目):
1)一次随机选出一个样本,有放回的抽样,重复N次(有可能出现重复的样本)
2) 随机去选出m个特征, m <<M,建立决策树
随机抽样训练集目的:
如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的。
有放回地抽样目的:
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,都是绝对“片面的”
随机森林api介绍
sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
n_estimators:integer,optional(default = 10)森林里的树木数量120,200,300,500,800,1200
Criterion:string,可选(default =“gini”)分割特征的测量方法
max_depth:integer或None,可选(默认=无)树的最大深度 5,8,15,25,30
max_features="auto”,每个决策树的最大特征数量
If "auto", then max_features=sqrt(n_features).
If "sqrt", then max_features=sqrt(n_features)(same as "auto").
If "log2", then max_features=log2(n_features).
If None, then max_features=n_features.
bootstrap:boolean,optional(default = True)是否在构建树时使用放回抽样
min_samples_split:节点划分最少样本数
min_samples_leaf:叶子节点的最小样本数
案例
# 随机森林去进行预测
# 1 实例化随机森林
rf = RandomForestClassifier()
# 2 定义超参数的选择列表
param = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5, 8, 15, 25, 30]}
# 超参数调优
# 3 使用GridSearchCV进行网格搜索
gc = GridSearchCV(rf, param_grid=param, cv=2)
gc.fit(x_train, y_train)
print("随机森林预测的准确率为:", gc.score(x_test, y_test))
Boosting 是一种提升算法,可以将弱的学习算法提升(boost)为强的学习算法。
实现过程
一个训练集
其中
初始化训练集权重
3.
其中Zm为规范化因子
根据该更新公式,如果第m轮预测对了的样本,更新权重,乘以1/(e^am)系数, 如果第m轮预测错了的样本,更新权重,乘以(e^am)系数,
预测时,根据预测样本的特征,把预测样本分到某一个分支,以这个分支样本标签的均值,作为这一轮的预测结果,放入到下一个模型继续预测,最终把所有模型的预测结果累加得到最终的预测结果。
下面我们通过一个年龄预测的示例,简单介绍的工作流程。
假设存在 4 个人P = p1, p2, p3, p4 ,他们的年龄分别为14, 16, 24, 26。其中p1, p2分别是高一和高三学生,p3, p4分别是应届毕业生和工作两年的员工。利用原始的决策树模型进行训练可以得到如下图所示的结果:
利用训练模型,由于数据量少,在此我们限定每个基学习器中的叶子节点最多为个,即树的深度最大为层。训练得到的结果如下图所示:
在训练第一棵树过程中,利用平均年龄作为预测值,由于p1, p2年龄相近,p3, p4年龄相近被划分为两组。通过计算两组中真实年龄和预测的年龄的差值,可以得到第一棵树的残差R = -1, 1, -1, 1。残差的意思就是: A的预测值 - A的实际值 = A的残差。 因此在训练第二棵树的过程中,利用第一棵树的残差作为标签值,最终所有人的年龄均正确被预测,即最终的残差均为 0。
则对于训练集中的个4人,利用训练得到的GBDT模型进行预测,结果如下:
GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树,在传统机器学习算法中,GBDT算的上TOP3的算法。
为什么不用CART分类树呢?
因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。
对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。
在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签是连续数值,所以再使用熵之类的指标不再合适,取而代之的是平方误差,它能很好的评判拟合程度。
遍历特征,对固定的切分特征扫描切分点,选择使得上式达到最小值的对.
梯度提升树(Grandient Boosting)是提升树(Boosting Tree)的一种改进算法。
先来个通俗理解:假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。最后将每次拟合的岁数加起来便是模型输出的结果。
2.2 拟合残差rmi学习一个回归树,得到hm(x)
2.3 更新
3. 得到回归问题提升树
在提升树算法中,
假设我们前一轮迭代得到的强学习器是: f t − 1 ( x ) f_{t-1}(x) ft−1(x)
损失函数是: L ( y , f t − 1 ( x ) ) L(y,f_{t-1}(x)) L(y,ft−1(x))
我们本轮迭代的目标是找到一个弱学习器: h t ( x ) h_t(x) ht(x)
最小化让本轮的损失: L ( y , f t ( x ) ) = L ( y , f t − 1 ( x ) + h t ( x ) ) L(y,f_t(x))=L(y,f_{t-1}(x)+h_t(x)) L(y,ft(x))=L(y,ft−1(x)+ht(x))
当采用平方损失函数时:
r
=
y
−
f
t
−
1
(
x
)
r=y-f_{t-1}(x)
r=y−ft−1(x)是当前模型拟合数据的残差(residual)。
提升树只需要简单地拟合当前模型的残差。
例子中的第一次迭代的残差是10岁,第二 次残差4岁
当损失函数是平方损失和指数损失函数时,梯度提升树每一步优化是很简单的,但是对于一般损失函数而言,往往每一步优化起来不那么容易。
针对这一问题,Friedman提出了梯度提升树算法,这是利用最速下降的近似方法,其关键是利用损失函数的负梯度作为提升树算法中的残差的近似值。
负梯度
第t轮的第i个样本的损失函数的负梯度为:
此时GBDT的负梯度就是残差,所以说对于回归问题,我们要拟合的就是残差。
对于分类问题
二分类和多分类的损失函数都是logloss。
GBDT算法原理
将Decision Tree和Gradient Boosting这两部分组合在一起
GBDT算法:
(1)初始化弱学习器
f
0
(
x
)
=
arg
min
c
∑
i
=
1
N
L
(
y
i
,
c
)
f_0(x)=\arg\min_c\sum_{i=1}^NL(y_i,c)
f0(x)=argcmini=1∑NL(yi,c)
(2)对有m = 1, 2, … ,M
(a)对每个样本i = 1, 2, …,N,计算负梯度,即残差 r i m = − [ ∂ L ( y , f ( x i ) ) ∂ f ( x i ) ] f ( x ) = f m − 1 ( x ) r_{im}=-\left[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)} rim=−[∂f(xi)∂L(y,f(xi))]f(x)=fm−1(x)
(b)将上步得到的残差作为样本新的真实值,并将数据 ( x i , r i m ) , i = 1 , 2 , . . N (x_i,r_{im}), i=1,2,..N (xi,rim),i=1,2,..N作为下棵树的训练数据,得到一颗新的回归树 f m ( x ) f_{m} (x) fm(x)其对应的叶子节点区域为 R j m , j = 1 , 2 , ⋯ , J R_{jm}, j =1,2,\cdots,J Rjm,j=1,2,⋯,J。其中J为回归树t的叶子节点的个数。
(c)对叶子区域j = 1, 2, …, J计算最佳拟合值 Υ j m = arg min ⏟ Υ ∑ x i ∈ R j m L ( y i , f m − 1 ( x i ) + Υ ) \Upsilon_{jm}=\underbrace{\arg\min}_{\Upsilon}\sum_{x_i\in R_{jm}}L(y_i, f_{m-1}(x_i)+\Upsilon) Υjm=Υ argminxi∈Rjm∑L(yi,fm−1(xi)+Υ)
(d)更新强学习器
f
m
(
x
)
=
f
m
−
1
(
x
)
+
∑
i
=
1
J
r
j
m
I
(
x
∈
R
j
m
)
f_m(x)=f_{m-1}(x)+\sum_{i=1}^Jr_{jm}I(x\in R_{jm})
fm(x)=fm−1(x)+i=1∑JrjmI(x∈Rjm)
(3)得到最终学习器
f
(
x
)
=
f
M
(
x
)
=
f
0
(
x
)
+
∑
m
=
1
M
∑
j
=
1
J
r
j
m
I
(
x
∈
R
j
m
f(x)=f_M(x)=f_0(x)+\sum_{m=1}^M\sum_{j=1}^Jr_{jm}I(x \in R_{jm}
f(x)=fM(x)=f0(x)+m=1∑Mj=1∑JrjmI(x∈Rjm
损失函数为平方损失,因为平方损失函数是一个凸函数,直接求导,倒数等于零,得到c。
令导数等于0
所以初始化时,取值为所有训练样本标签值的均值。c = (1.1 + 1.3 + 1.7 + 1.8)/4 = 1.475,此时得到初始学习器f0(x):f0(x) = c =1.475
2.对迭代轮数m = 1, 2, …, M:
由于设置了迭代次数n_trees = 5:,这里的M = 5。
计算负梯度,根据上文损失函数为平方损失时,负梯度就是残差,再直白一点y就是 与上一轮得到的学习器fm-1的差值:
残差在下表列出:
此时将残差作为样本的真实值来训练弱学习器,即下表数据
接着,寻找回归树的最佳划分节点,遍历每个特征的每个可能取值。
从年龄特征的5开始,到体重特征的70结束,分别计算分裂后两组数据的平方损失(Square Error)
SEl左节点平方损失,SEr右节点平方损失,找到使平方损失和SEsum = SEL + SEr最小的那个划分节点,即为最佳划分节点。
例如:以年龄21为划分节点,将小于21的样本划分为到左节点,大于等于21的样本划分为右节点。左节点包括 ,右节点包括样本,
所有可能划分情况如下表所示:
以上划分点是的总平方损失最小为0.025有两个划分点:年龄21和体重60,所以随机选一个作为划分点,这里我们选 年龄21 现在我们的第一棵树长这个样子:
我们设置的参数中树的深度max_depth=3,现在树的深度只有2,需要再进行一次划分,这次划分要对左右两个节点分别进行划分:
对于左节点,只含有0,1两个样本,根据下表我们选择年龄7划分
对于右节点,只含有2,3两个样本,根据下表我们选择年龄30划分(也可以选体重70)
现在我们的第一棵树长这个样子:
此时我们的树深度满足了设置,还需要做一件事情,给这每个叶子节点分别赋一个参数,来拟合残差。
这里其实和上面初始化学习器是一个道理,平方损失,求导,令导数等于零,化简之后得到每个叶子节点的参数r,其实就是标签值的均值。这个地方的标签值不是原始的 y,而是本轮要拟合的标残差 y0-f0(x).
根据上述划分结果,为了方便表示,规定从左到右为第1, 2, 3, 4个叶子结点
此时的树长这个样子:
此时可更新强学习器,需要用到参数学习率:learning_rate = 0.1,用lr表示。
用学习率是Shrinkage的思想,如果每次都全部加上(学习率为1)很容易一步学到位导致过拟合。
重复此步骤,直到 m>5 结束,最后生成5棵树。
结果中,0.9倍这个现象,和其学习率有关。这是因为数据简单每棵树长得一样,导致每一颗树的拟合效果一样,而每棵树都只学上一棵树残差的0.1倍,导致这颗树只能拟合剩余0.9了。
3.得到最后的强学习器:
4.预测样本:
在中,样本4的年龄为25,大于划分节点21岁,又小于30岁,所以被预测为0.2250;
在中,样本4的…此处省略…所以被预测为0.2025;
在中,样本4的…此处省略…所以被预测为0.1823;
在中,样本4的…此处省略…所以被预测为0.1640;
在中,样本4的…此处省略…所以被预测为0.1476.
最终预测结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。