当前位置:   article > 正文

机器学习之决策树_决策树非参数模型

决策树非参数模型

决策树

gini属性衡量其不纯度(impurity):如果应用的所有实例都属于同一个类别,那么节点就是“纯”的(gini=0)。
如深度2左节点计算:gini=1 -(0/54)2 -(49/54)2 -(5/54)2≈0.168

CART算法仅生成二叉树,其他算法(如ID3生成的决策树)其节点可以拥有两个以上的子节点。

黑盒模型:随机森林、神经网络
白盒模型:决策树。提供了简单的分类规则,可以用言语解释为什么做出这样的决策

CART训练算法 -是一种贪婪算法,通常产生不错的解,但不能保证是最优解。
基本原理是首先使用单个特征和阈值,将训练集分为两个子集。如何选择特征k和阈值tk? 搜索产生最纯子集的一对(k,tk)

gini和熵没有大的不同,gini倾向于分裂出最常见的类别,熵则倾向于产生更平衡的树

正则化超参数
决策树是非参数模型,并非指其不包含任何参数,是指在训练之前没有确定参数的数量,导致模型结构自由而紧密的贴合数据。
*参数模型(线性模型)*则有预先设定好的一部分参数,自由度受限,降低了过拟合的风险(增加了欠拟合的风险)。

剪枝:标准统计测试(X^2)用来估算“提升纯粹是出于偶然”(零假设)的概率,这个概率(p值)大于阈值,则节点可被认可不必要,进行删除,删除所有不必要节点后,剪枝结束。

不稳定性
决策树喜欢正交的决策边界(所有分割垂直于轴),这使它们对训练集旋转敏感。
限制此问题的一种方法是使用主成分分析,会使训练数据的方向更好。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/763833
推荐阅读
相关标签