机器学习之决策树_决策树非参数模型

作者：天景科技苑 | 2024-06-27 21:33:17

踩

决策树非参数模型

gini属性衡量其不纯度（impurity）：如果应用的所有实例都属于同一个类别，那么节点就是“纯”的（gini=0）。
如深度2左节点计算：gini=1 -（0/54）² -（49/54）² -（5/54）²≈0.168

CART算法仅生成二叉树，其他算法（如ID3生成的决策树）其节点可以拥有两个以上的子节点。

黑盒模型：随机森林、神经网络
白盒模型：决策树。提供了简单的分类规则，可以用言语解释为什么做出这样的决策

CART训练算法 -是一种贪婪算法，通常产生不错的解，但不能保证是最优解。
基本原理是首先使用单个特征和阈值，将训练集分为两个子集。如何选择特征k和阈值tk？搜索产生最纯子集的一对（k，tk）

gini和熵没有大的不同，gini倾向于分裂出最常见的类别，熵则倾向于产生更平衡的树

正则化超参数：
决策树是非参数模型，并非指其不包含任何参数，是指在训练之前没有确定参数的数量，导致模型结构自由而紧密的贴合数据。
*参数模型（线性模型）*则有预先设定好的一部分参数，自由度受限，降低了过拟合的风险（增加了欠拟合的风险）。

剪枝：标准统计测试（X^2）用来估算“提升纯粹是出于偶然”（零假设）的概率，这个概率（p值）大于阈值，则节点可被认可不必要，进行删除，删除所有不必要节点后，剪枝结束。

不稳定性
决策树喜欢正交的决策边界（所有分割垂直于轴），这使它们对训练集旋转敏感。
限制此问题的一种方法是使用主成分分析，会使训练数据的方向更好。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/763833