赞
踩
决策树模型的决策过程类似一棵树,从根节点一步一步走向叶子节点。所有的数据最终都会落到叶子节点上,既可以用作分类,也可以用作回归。决策树的组成:
决策树中的每增加一个节点就相当于在数据中切了一刀,每个节点都代表一个特征。
从给定的数据集构造出一棵树,即从根节点开始选择特征,依次增加节点。构建决策树的关键就是为选择每个节点的特征,不同层级的节点特征选择必须遵循某些规律。
1.如何进行特征切分(选择节点)?
(1)目标
根节点切分数据的效果应该是最好的,后续增加的节点特征,依次类推。
(2)衡量标准
熵:表示随机变量的不确定性的度量。熵值越大表示物体内部越混乱,即节点特征下的子节点越多,熵值越小表示当前节点特征下的子节点越少。H(X)=-∑pi*logpi,i=1,2,…n
A集合【1,1,1,1,1,1,1,1,2,2】 熵值小
B集合【1,2,3,4,5,6,7,8,9,1】 熵值大
不确定性越大,得到的熵值就越大。当p=0或p=1时,H(p)=
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。