深入理解XGBoost_xgboost 定义

作者：Monodyee | 2024-04-21 04:41:33

踩

xgboost 定义

我的个人微信公众号： Microstrong

微信公众号ID： MicrostrongAI

微信公众号介绍： Microstrong(小强)同学主要研究机器学习、深度学习、计算机视觉、智能对话系统相关内容，分享在学习过程中的读书笔记！期待您的关注，欢迎一起学习交流进步！

我的知乎主页： https://www.zhihu.com/people/MicrostrongAI/activities

Github： https://github.com/Microstrong0305

个人博客： https://blog.csdn.net/program_developer

本文首发在我的微信公众号里，地址：https://mp.weixin.qq.com/s/HDEKnIufbW8xQcOgHaXlZw，如有公式和图片不清楚，可以在我的微信公众号里阅读。

本文的主要内容概览：
在这里插入图片描述

1. XGBoost简介

XGBoost的全称是eXtreme Gradient Boosting，它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具，它是目前最快最好的开源 boosting tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量的Kaggle选手选用XGBoost进行数据挖掘比赛，是各大数据科学比赛的必杀武器；在工业界大规模数据方面，XGBoost的分布式版本有广泛的可移植性，支持在Kubernetes、Hadoop、SGE、MPI、 Dask等各个分布式环境上运行，使得它可以很好地解决工业界大规模数据的问题。本文将从XGBoost的数学原理和工程实现上进行介绍，然后介绍XGBoost的优缺点，并在最后给出面试中经常遇到的关于XGBoost的问题。

2. XGBoost的原理推导

2.1 从目标函数开始，生成一棵树

XGBoost和GBDT两者都是boosting方法，除了工程实现、解决问题上的一些差异外，最大的不同就是目标函数的定义。因此，本文我们从目标函数开始探究XGBoost的基本原理。

2.1.1 学习第 t 棵树

XGBoost是由 $k$ 个基模型组成的一个加法模型，假设我们第 $t$ 次迭代要训练的树模型是 $f_{t}(x)$ ，则有：
在这里插入图片描述

2.1.2 XGBoost的目标函数

损失函数可由预测值 $\hat{y}_{i}$ 与真实值 $y_{i}$ 进行表示：
$\sum_{i=1}^{n}{l(y_{i},\hat{y}_{i})}$
其中， $n$ 为样本的数量。

我们知道模型的预测精度由模型的偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要在目标函数中添加正则项，用于防止过拟合。所以目标函数由模型的损失函数 $L$ 与抑制模型复杂度的正则项 $\Omega$ 组成，目标函数的定义如下：
$\sum_{i=1}^{n}{l(y_{i},\hat{y}_{i})} + \sum_{i=1}^{t}{\Omega(f_{i})}$
其中， $\sum_{i=1}^{t}{\Omega(f_{i})}$ 是将全部 $t$ 棵树的复杂度进行求和，添加到目标函数中作为正则化项，用于防止模型过度拟合。

由于XGBoost是boosting族中的算法，所以遵从前向分步加法，以第 $t$ 步的模型为例，模型对第 $i$ 个样本 $x_{i}$ 的预测值为：
$\hat{y}_{i}^{(t)} = \hat{y}_{i}^{(t-1)} + f_{t}(x_{i})$
其中， $\hat{y}_{i}^{(t-1)}$ 是由第 $t - 1$ 步的模型给出的预测值，是已知常数， $f_{t}(x_{i})$ 是这次需要加入的新模型的预测值。此时，目标函数就可以写成：

\begin{aligned} O b j^{(t)} & = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{(t)}) + \sum_{i = 1}^{t} Ω (f_{i}) \\ = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{(t - 1)} + f_{t} (x_{i})) + \sum_{i = 1}^{t} Ω (f_{i}) \\ = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{(t - 1)} + f_{t} (x_{i})) + Ω (f_{t}) + c o n s t a n t \end{aligned}

$\begin{aligned} Obj^{(t)} &= \sum_{i=1}^{n}{l(y_{i},\hat{y}_{i}^{(t)})} + \sum_{i=1}^{t}{\Omega(f_{i})} \\ & = \sum_{i=1}^{n}{l(y_{i},\hat{y}_{i}^{(t-1)}+f_{t}(x_{i}))} + \sum_{i=1}^{t}{\Omega(f_{i})} \\ &=\sum_{i=1}^{n}{l(y_{i},\hat{y}_{i}^{(t-1)}+f_{t}(x_{i}))} + \Omega(f_{t}) +constant \end{aligned}$

O b j^{(t)} = i = 1 \sum n l (y_{i}, \overset{y}{^}_{i}^{(t)}) + i = 1 \sum t Ω (f_{i}) = i = 1 \sum n l (y_{i}, \overset{y}{^}_{i}^{(t - 1)} + f_{t} (x_{i})) + i = 1 \sum t Ω (f_{i}) = i = 1 \sum n l (y_{i}, \overset{y}{^}_{i}^{(t - 1)} + f_{t} (x_{i})) + Ω (f_{t}) + c o n s t a n t

注意上式中，只有一个变量，那就是第

t

棵树

f_{t}(x_{i})

，其余都是已知量或可通过已知量可以计算出来的。细心的同学可能会问，上式中的第二行到第三行是如何得到的呢？这里我们将正则化项进行拆分，由于前

t - 1

棵树的结构已经确定，因此前

t - 1

棵树的复杂度之和可以用一个常量表示，如下所示：

\begin{aligned} \sum_{i = 1}^{t} Ω (f_{i}) & = Ω (f_{t}) + \sum_{i = 1}^{t - 1} Ω (f_{i}) \\ = Ω (f_{t}) + c o n s t a n t \end{aligned}

2.1.3 泰勒公式展开

泰勒公式是将一个在 $x=x_{0}$ 处具有 $n$ 阶导数的函数 $f (x)$ 利用关于 $x-x_{0})$ 的 $n$ 次多项式来逼近函数的方法。若函数 $f (x)$ 在包含 $x_{0}$ 的某个闭区间 $[a, b]$ 上具有 $n$ 阶导数，且在开区间 $(a, b)$ 上具有 $n + 1$ 阶导数，则对闭区间 $[a, b]$ 上任意一点 $x$ 有：
$\sum_{i=0}^{n}{\frac{f^{(i)}(x_{0})}{i!}}(x-x_{0})^{i}+R_{n}(x)$
其中的多项式称为函数在 $x_{0}$ 处的泰勒展开式， $R_{n}(x)$ 是泰勒公式的余项且是 $x-x_{0})^{n}$ 的高阶无穷小。

根据泰勒公式，把函数

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】