先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器（即根据弱学习的学习误差率表现来更新训练样本的权重，使之前弱学习器学习误差率高的训练样本点的权重变高，即让误差率高的样本在后面的弱学习器中得到更多的重视）；如此重复进行，直至基学习器数目达到事先指定的值T，最终再将这T个基学习器进行加权结合。

2、Boosting的两个核心问题

（1）在每一轮如何改变训练数据的权值或概率分布？

通过提高那些在前一轮被弱分类器分错样本的权值，减小前一轮分对样本的权值，来使得分类器对误分的数据有较好的效果。

（2）通过什么方式来组合弱分类器？

通过加法模型将弱分类器进行线性组合（比如AdaBoos算法）；

通过拟合残差的方式逐步减小残差，将每一步生成的模型叠加得到最终模型（比如GBDT算法）；

3、代表算法——AdaBoost（Adaptive boosting）

标准AdaBoost只适用于二分类。

（1）算法步骤

A、初始化训练数据权重相等，训练第一个学习器 $H_{1}(x)$

即假设每个训练样本在基分类器的学习中作用相同

B、反复学习基本分类器，在第m轮中执行以下步骤（其中： $m=1,2, \ldots, M$ ）：

✨在权值分布为 $D_{t}$ 的训练数据上，确定基分类器；

✨计算该学习器在训练集中的错误率

$\varepsilon t=P(h t(x t) \neq y t)$

$h t()$ 函数为该学习器代表的函数；
xt为相应的样本属性；
yt为对应的样本标签；

若 $\varepsilon t$ 为0.5则没有投票权重，直接跳过，进行下一轮；

✨计算该学习器的投票权重

$\alpha_{t}=\frac{1}{2} \ln \left(\frac{1-\varepsilon t}{\varepsilon t}\right)$

这里即体现：

若 $\varepsilon t$ >0.5则有负投票权重；

若 $\varepsilon t$ <0.5则有正投票权重；

✨根据投票权重，对训练数据重新赋权

$D_{t+1}(x)=\frac{D_{t}(x)}{Z_{t}} *\left\{\begin{array}{ll} e^{-\alpha_{t}}, & \text { predicted }=\text { truth } \\ e^{\alpha_{t}}, & \text { predicted } \neq \text { truth } \end{array}\right.$

其中：

$Z_{t}$ 是一个归一化因子；
$D_{t}(x)$ 是当前训练样本中样本x所占的权重；
$D_{t+1}(x)$ 是下一次训练样本中样本x所占的权重；

C、对这M个学习器进行加权投票

$\mathrm{H}(x)=\operatorname{sign}\left(\sum_{i=1}^{M} \alpha_{i} h_{i}(x)\right)$

（2）推导过程

假设分为2类，y为1或-1。

目标式为基学习器的线性组合，即：

$\mathrm{H}(x)=\sum_{i=1}^{M} \alpha_{i} h_{i}(x)$

为了得到更好的分类器，则我们希望损失函数尽可能的小，即以下最小化指数损失函数：

$L(H \mid D)=E(\exp [-f(x) H(x)]),x\in D$

因此我们对其做H(x)的偏导，得：

$-e^{-H(x)}P(f(x)=1|x) + e^{H(x)}P(f(x)=-1|x)$

令其为0，可得：

$H(x) = \frac{1}{2}ln\frac{P(f(x)=1|x)}{P(f(x)=-1|x)}$

又：

$sign(H(x)) = argmaxP(f(x)=y|x)$ ；即当y为什么值时P(f(x)=y|x)最大，y的取值为1或-1。

这意味着 $sign(H(x))$ 达到了贝叶斯最优错误率。

✨求 $\alpha _{t}$

所以加入基分类器权重 $\alpha _{t}$ 后， $\alpha _{t}h_{t}$ 的指数损失函数为：

$e^{-\alpha _{t}}(1-\varepsilon _{t})+e^{\alpha _{t}}\varepsilon _{t}$

其中 $\varepsilon _{t}$ 为基分类器 $h_{t}$ 的错误率；

最小化指数损失函数后可得到（令导数为0）：

$\alpha _{t}= \frac{1}{2}ln\frac{1-\varepsilon _{t}}{\varepsilon _{t}}$ ；这个就是我们前面所说的这个分类器的投票权重啦。

✨求 $h_{t}$

在获得 $H_{t-1}$ 之后样本分布将进行调整，使得下一轮的基学习器 $h_{t}$ 能纠正 $H_{t-1}$ 的一些错误

因为 $f^{2}(x) = h_{t}^{2}(x) = 1$ ，所以上式可用 $e^{-f(x)h_{t}(x)}$ 的泰勒展开式近似：

所以理想基学习器就是找到h使得上式最小：

在这里插入图片描述

令 $D_{t}$ 表示一个分布：

在这里插入图片描述

所以 $h_{t}(x)$ 等价于：

在这里插入图片描述

又因为：

即当f(x)h(x)不等时为-1，相等时为1。

所以 $h_{t}(x)$ 又可以化为：

在这里插入图片描述

由上式可以看到 $h_{t}(x)$ 是在数据集 $D_{t}$ 下得到（残差逼近思想）

✨求 $D_{t}$

在这里插入图片描述

这里对应上面算法过程中的

$D_{t+1}(x)=\frac{D_{t}(x)}{Z_{t}} *\left\{\begin{array}{ll} e^{-\alpha_{t}}, & \text { predicted }=\text { truth } \\ e^{\alpha_{t}}, & \text { predicted } \neq \text { truth } \end{array}\right.$

四、Bagging与随机森林

1、Bagging

（1）思想

即训练多个分类器取平均；

从训练集中进行子抽样组成每个基模型所需要的子训练集（子训练集相互间可有重叠），对所有基模型预测的结果进行综合产生最终的预测结果。

（2）工作机制

从原始样本集中抽取训练集。每轮从原始样本集中使用自助采样法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中），共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）；
每次使用一个训练集得到一个模型，k个训练集共得到k个模型；
对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）。

2、随机森林

详见RF模型（随机森林模型）详解_tt丫的博客-CSDN博客_rf模型

五、学习器结合策略汇总

1、学习器结合的好处

（1）降低误选的假设空间导致泛化性能不佳的风险

从统计方面上看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到同等性能，此时如果使用单学习器可能会因为误选而导致泛化性能不佳，结合多个学习器则会减少这一风险。

（2）降低陷入糟糕局部极小点的风险

从计算方面上看，对于一个问题的求解有时可能不止一个局部极小，有的局部极小点所对应的泛化能力很差，而多个学习器结合可以降低陷入糟糕局部极小点的风险。

（3）扩大假设空间

从表示方面上看，某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间内。

多个学习器，相应的假设空间就会扩大，有可能学到更好的近似。

2、结合策略

（1）平均法

对于回归问题最常用的就是平均法。

又分为简单平均法（每个学习器权重相同）和加权平均法。

注意：

加权平均法的权重一般都是从训练数据中学习而得。现实任务中的训练样本通常不充分或存在噪声，这使得学出的权重不完全可靠；尤其对于规模比较大的集成，要学习的权重比较多，较容易导致过拟合。因此，加权平均法未必比简单平均法优秀。

（2）投票法

对于分类问题常用投票法集成。

投票法又分为绝对多数投票法，相对多数投票法和加权投票法。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/840629