赞
踩
- 阈值:从特征值中选取、等步长选取最大最小值之间的值
+ 叶子节点的值:叶子所属数据的均值(回归)、对应类别(分类)
+ 截止条件:达到叶子节点数上限、继续划分无法使误差减小
在决策树的训练中,如上图所示,就是从根节点开始,不断的分裂,直到触发截止条件,在节点的分裂过程中要解决的问题其实就两个:
随机森林
随机森林就是构建多棵决策树投票,在构建多棵树过程中,引入随机性,一般体现在两个方面,一是每棵树使用的样本进行随机抽样,分为有放回和无放回抽样。二是对每棵树使用的特征集进行抽样,使用部分特征训练。
在训练过程中,如果单机内存能放下所有样本,可以用多线程同时训练多棵树,树之间的训练互不影响。
随机森林是由多个决策树构成的森林,算法分类结果由决策树的投票结果得到,其属于集成学习中的bagging方法。算法的主要原理如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。