当前位置:   article > 正文

spark 特征工程 -- 分箱 Binning(如何实现等频、等宽分箱)_spark卡方分箱

spark卡方分箱


分箱操作简介

目的

分箱就是将连续变量离散化,合并成较少的状态

分箱操作的种类

  1. 等频分位数分箱

指定默认分箱个数后,将数据分箱到每个箱中并且每个箱中的数据量大致相等

  1. 等宽分箱

指定默认分箱个数后,按照列中的最小值到最大值之间,将数据N等分,数据分到每个箱中,和等频分箱相比每个箱中的数据量不固定

  1. 自定义区间 - 自定义区间分箱

一般来说仅针对对数据值列有效 - 连续特征自定义分箱区间,每条区间以;隔开。

每列的区间类似[col:]-inf,2.0,3.0,inf指定。
第一条自定义区间为对所有选定列的默认规则。
例子:

a_1:1.0,2.0;3.0, 4.0

即定义了[1.0,2.0]和[3.0,4.0]两个分箱区间

  1. 决策树分箱 DECISIONTREE

决策树分箱的原理就是用想要离散化的变量单变量用树模型拟合目标变量,例如直接使用sklearn提供的决策树(是用cart决策树实现的),然后将内部节点的阈值作为分箱的切点。

补充,cart决策树和ID3、C4.5决策树不同,cart决策树对于离散变量的处理其实和连续变量一样,都是将特征的所有取值从小到大排序,然后取两两之间的均值,然后遍历所有这些均值ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/885159
推荐阅读
相关标签
  

闽ICP备14008679号