赞
踩
By:Yang Liu
1.什么是特征选择
经典的特征选择定义为:依据某个准则,从N个特征集合中选出M个特征的子集(M=<N),以达到降低特征空间维数的目的。
特征选择包括特征提取和特征选择两个方面。
特征提取是指将原有的特征空间进行某种形式的变换,以得到新的特征。主成分分析PCA是这类方法中最著名的算法。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集,使得任务如分类、回归等达到和特征选择前近似甚至更好的效果。
特征选择的主要思想就是从输入的特征集合中剔除那些很少或者不提供预测信息的特征,从而得到一个能更好反映数据特点的、使某种评估标准最优的特征子集。特征选择能显著地改进分类模型和识别模型的可理解性,并能建立一个预测更好的分类模型和识别模型(并能建立一个更好的预测或分类模型)。
2.特征选择研究的关键问题
特征选择算法研究的两个关键问题:
一是选择合适的评价准则来衡量特征子集的优劣;
二是选择一个高效率的特征子集搜索方法,以便在允许的时间,以可以忍受的代价找出最小的、最能描述类别的特征组合。
3.最大相关最小冗余(MRMR) 算法模型
最大相关最小冗余是基于互信息的特征选择方法,它根据最大统计依赖性准则来选择特征。从特征空
间中寻找与目标类别有最大相关性且相互之间具有最少冗余性的 m 个特征,
最大相关和最小冗余的定义为 :
最大相关
max
D
(
S
,
c
)
,
D
=
1
∣
S
∣
∑
x
i
∈
S
I
(
x
i
;
c
)
\max D(S,c),D = \frac{1}{{|S|}}\sum\limits_{{{\text{x}}_i} \in S} {I({x_i};c)}
maxD(S,c),D=∣S∣1xi∈S∑I(xi;c)
最小冗余
min
R
(
S
)
,
R
=
1
∣
S
∣
2
∑
x
i
,
x
j
∈
S
I
(
x
i
;
x
j
)
\min R(S),R = \frac{1}{{|S{|^2}}}\sum\limits_{{x_i},{x_j} \in S} {I({x_i};{x_j})}
minR(S),R=∣S∣21xi,xj∈S∑I(xi;xj)
其中: S 表示特征集合; c 表示目标类别;
I
(
x
i
;
c
)
I({x_i};c)
I(xi;c)表示特征 i 和目标类别 c 之间的互信息;
I
(
x
i
;
x
j
)
I({x_i};{x_j})
I(xi;xj)是特征 i 与特征 j 之间的互信息。
给定两个随机变量 x和 y,它们之间的互信息根据其概率密度函数 p(x) 、p(y) 和 p( x,y) 分别定义为
I
(
x
;
y
)
=
∬
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
d
x
d
y
I(x;y) = \iint {p(x,y)\log \frac{{p(x,y)}}{{p(x)p(y)}}dxdy}
I(x;y)=∬p(x,y)logp(x)p(y)p(x,y)dxdy;
对于多元变量 S 和目标类别c,互信息定义为
I
(
S
m
;
c
)
=
∬
p
(
S
m
,
c
)
log
p
(
S
m
,
c
)
p
(
S
m
)
p
(
c
)
d
S
m
d
c
I({S_{\text{m}}};c) = \iint {p({S_m},c)\log \frac{{p({S_m},c)}}{{p({S_m})p(c)}}d{S_m}dc}
I(Sm;c)=∬p(Sm,c)logp(Sm)p(c)p(Sm,c)dSmdc;
MRMR 的特征选择标准为:
信息差
max
ϕ
(
D
,
R
)
,
ϕ
=
D
−
R
\max \phi (D,R),\phi = D - R
maxϕ(D,R),ϕ=D−R;
信息熵
max
ϕ
1
(
D
,
R
)
,
ϕ
1
=
D
R
\max {\phi _1}(D,R),{\phi _1} = \frac{D}{R}
maxϕ1(D,R),ϕ1=RD;
该算法的搜索方法为: 基于最大相关最小冗余原则实现最优特征集
S
m
{S_{\text{m}}}
Sm的选取,现假定已经获取了m-1 个特征所组成的特征集
S
m - 1
{S_{{\text{m - 1}}}}
Sm - 1,则第 m 个特征
可通过下式中的算子来进行搜索:
max
Δ
m
i
d
,
Δ
m
i
d
=
max
{
I
(
x
j
,
c
)
−
1
m
−
1
∑
x
i
∈
S
m
−
1
I
(
x
j
,
x
i
)
}
\max {\Delta _{mid,}}{\Delta _{mid}} = \max \{ I({x_j},c) - \frac{1}{{m - 1}}\sum\limits_{{x_i} \in {S_{m - 1}}} {I({x_j},{x_i})}\}
maxΔmid,Δmid=max{I(xj,c)−m−11xi∈Sm−1∑I(xj,xi)} ;
max
Δ
m
i
q
,
Δ
m
i
q
=
max
{
I
(
x
j
,
c
)
/
{
1
m
−
1
∑
x
i
∈
S
m
−
1
I
(
x
j
,
x
i
)
}
}
\max {\Delta _{miq,}}{\Delta _{miq}} = \max \{ I({x_j},c)/\{ \frac{1}{{m - 1}}\sum\limits_{{x_i} \in {S_{m - 1}}} {I({x_j},{x_i})\} } \}
maxΔmiq,Δmiq=max{I(xj,c)/{m−11xi∈Sm−1∑I(xj,xi)}} ;
式中,
x
j
{x_j}
xj为原始特征集中不包含
S
m
−
1
{S_{{\text{m}} - 1}}
Sm−1中特征量的其他特征。
算法流程:
算法的具体描述如下:
参考文献:
(1)《基于最大相关最小冗余的特征选择算法研究》-曹静
(2)《基于最大相关最小冗余的多标记特征选择》-杨文元
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。