CatBoost是一种基于对称决策树（oblivious trees）为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架，主要解决的痛点是高效合理地处理类别型特征，这一点从它的名字中可以看出来，CatBoost是由Categorical和Boosting组成。此外，CatBoost还解决了梯度偏差（Gradient Bias）以及预测偏移（Prediction shift）的问题，从而减少过拟合的发生，进而提高算法的准确性和泛化能力。

上面做了一个概述，那么黑体的名字如何理解呢？

另外，与其提升算法不同，CatBoost使用对称全二叉树（这种树的特点是每一层使用相同的分割特征）。这样一来，树是更简单的结构，我们也就避免了过度拟合的危险。此外，由于我们的基础模型结构简单，我们有更快的预测器。

2 原理

2.1 类别特征处理

CatBoost算法的设计初衷是为了更好的处理GBDT特征中的categorical features（比如性别【男，女】）。在处理 GBDT特征中的categorical features的时候，最简单的方法是用 categorical feature 对应的标签的平均值来替换（target encoding，这个在比赛中我也是常用,但是存在问题）。在决策树中，标签平均值将作为节点分裂的标准。这种方法被称为 Greedy Target-based Statistics , 简称 Greedy TS；

2.1.1 传统目标编码： TS

用公式来表达就是：

$x_{i,k} = \frac{ \sum_{j=1}^{n} [x_{j,k}=x_{i,k}] Y_j}{\sum_{j=1}^{n} [x_{j,k}=x_{i,k}]}$ ， => groupby('cat')[label].mean()

TS编码有一个缺点，极端情况下当训练集中某类取值只有一个样本、或者没有样本时，计算的编码值就失真了，也就是容易受噪声数据影响。

如果强行用标签的平均值来表示特征的话，当训练数据集和测试数据集数据结构和分布不一样的时候会出条件偏移问题。

2.1.2 Greedy TS

一个标准的改进 TS的方式是添加先验分布项，这样可以减少噪声和低频率类别型数据对于数据分布的影响

直接上公式：

$x_{i,k} = \frac{ \sum_{j=1}^{n} [x_{j,k}=x_{i,k}] Y_j + ap}{\sum_{j=1}^{n} [x_{j,k}=x_{i,k}]+a}$

其中p是添加的先验项，a通常是大于0的权重系数。添加先验项是一个普遍做法，针对类别数较少的特征，它可以减少噪声数据。对于回归问题，一般情况下，先验项可取数据集label的均值。对于二分类，先验项是正例的先验概率。

Greedy TS编码也存在一个问题，即目标泄露。也需要训练预测集合数据分布一致；

2.1.3 ordered TS编码

它是catboost的主要思想，依赖于排序，受online learning algorithms的启发得到，对于某一个样本，TS的值依赖于观测历史，为了在离线的数据上应用该思想，我们将数据随机排序，对于每一个样本，利用该样本之前数据计算该样本类别值的TS值。如果仅仅使用一个随机序列，那么计算得到值会有较大的方差，因此我们使用不同的随机序列来计算。

在某种排序状态

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/471405