赞
踩
样本集合的不确定性描述:信息熵、gini
信息熵在x=1处一阶泰勒展开就是基尼指数
熵
gini
f(x)=lnx=ln[1+(x-1)]=(x-1)-1/2(x-1)^2+1/3(x-1)^3-1/5(x-1)^5
忽略掉高次项,可以得到f(x)≈x-1。这样 -pklogpk≈pk(1-pk)了,就更可以看到基尼指数与熵很近似了。
1、信息增益
2、gini
选择特征是选择条件基尼系数小的特征。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。