赞
踩
分箱就是将连续变量离散化,合并成较少的状态
指定默认分箱个数后,将数据分箱到每个箱中并且每个箱中的数据量大致相等
指定默认分箱个数后,按照列中的最小值到最大值之间,将数据N等分,数据分到每个箱中,和等频分箱相比每个箱中的数据量不固定
一般来说仅针对对数据值列有效 - 连续特征自定义分箱区间,每条区间以;隔开。
每列的区间类似[col:]-inf,2.0,3.0,inf指定。
第一条自定义区间为对所有选定列的默认规则。
例子:
a_1:1.0,2.0;3.0, 4.0
即定义了[1.0,2.0]和[3.0,4.0]两个分箱区间
决策树分箱的原理就是用想要离散化的变量单变量用树模型拟合目标变量,例如直接使用sklearn提供的决策树(是用cart决策树实现的),然后将内部节点的阈值作为分箱的切点。
补充,cart决策树和ID3、C4.5决策树不同,cart决策树对于离散变量的处理其实和连续变量一样,都是将特征的所有取值从小到大排序,然后取两两之间的均值,然后遍历所有这些均值ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。