赞
踩
gini属性衡量其不纯度(impurity):如果应用的所有实例都属于同一个类别,那么节点就是“纯”的(gini=0)。
如深度2左节点计算:gini=1 -(0/54)2 -(49/54)2 -(5/54)2≈0.168
CART算法仅生成二叉树,其他算法(如ID3生成的决策树)其节点可以拥有两个以上的子节点。
黑盒模型:随机森林、神经网络
白盒模型:决策树。提供了简单的分类规则,可以用言语解释为什么做出这样的决策
CART训练算法 -是一种贪婪算法,通常产生不错的解,但不能保证是最优解。
基本原理是首先使用单个特征和阈值,将训练集分为两个子集。如何选择特征k和阈值tk? 搜索产生最纯子集的一对(k,tk)
gini和熵没有大的不同,gini倾向于分裂出最常见的类别,熵则倾向于产生更平衡的树
正则化超参数:
决策树是非参数模型,并非指其不包含任何参数,是指在训练之前没有确定参数的数量,导致模型结构自由而紧密的贴合数据。
*参数模型(线性模型)*则有预先设定好的一部分参数,自由度受限,降低了过拟合的风险(增加了欠拟合的风险)。
剪枝:标准统计测试(X^2)用来估算“提升纯粹是出于偶然”(零假设)的概率,这个概率(p值)大于阈值,则节点可被认可不必要,进行删除,删除所有不必要节点后,剪枝结束。
不稳定性
决策树喜欢正交的决策边界(所有分割垂直于轴),这使它们对训练集旋转敏感。
限制此问题的一种方法是使用主成分分析,会使训练数据的方向更好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。