赞
踩
现实生活中的数据集中的样本通常在某系属性上是缺失的,如果属性值缺失的样本数量比较少,我们可以直接简单粗暴的把不完备的样本删除掉,但是如果有大量的样本都有属性值的缺失,那么就不能简单地删除,因为这样删除了大量的样本,对于机器学习模型而言损失了大量有用的信息,训练出来的模型性能会受到影响。数据集如下(数据集来自周志华《机器学习》)
参考来源:http://blog.csdn.net/u012328159/article/details/79413610
在决策树中处理含有缺失值的样本的时候,需要解决两个问题:
具体处理情况如下
XGBoost模型却能够处理缺失值,也就是说模型允许缺失值存在。XGBoost处理缺失值的方法和其他树模型不同。根据原文中的介绍,XGBoost把缺失值当做稀疏矩阵来对待,本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计算损失,选择较优的那一个。如果训练中没有数据缺失,预测时出现了数据缺失,那么默认被分类到右子树。
总体来看,对于有缺失值的数据在经过缺失处理后:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。