赞
踩
特征:观察过程中的可测量属性。
特征选择(消除变量)有助于理解数据,减少计算要求,降低维度灾难的影响,提高预测器的性能。
特征选择的方法包括:filter(过滤),wrapper(包装),embedded(嵌入)
过滤方法使用变量排序技术作为按顺序选择变量的主要标准。
最简单的标准是皮尔逊相关系数( Pearson correlation coefficient),但只能用于检测变量和目标之间的线性相关性
两个量之间的互信息(MI)是对一个量的认识在多大程度上减少了对另一个量的不确定性的度量。因此一旦选择了计算 MI 的特定方法,那么最简单的特征选择方法之一就是找到每个特征和输出类标签之间的MI,并根据这个值对它们进行排序。但是简单的排序方法忽略了 内部特征(inter-feature) 的MI。
s [ n ] = min l < k I ^ ( Y ; X n ∣ X v ( I ) ) ∣ s[n]=\min _{l<k} \widehat{I}\left(Y ; X_{n} \mid X_{v(I)}\right) \mid s[n]=l<kminI (Y;Xn∣Xv(I))∣
上面的方程迭代地选择与类最大MI的特征,而不选择与已经选择的特征相似的特征。
特征排序方法如皮尔逊相关系数,MI 选择的特征仍会存在冗余特征。同时,特征排序中容易忽略本身信息量少,但是和冗余特征合并后含有重要信息的特征。
包装方法将预测器作为黑盒,预测器性能作为目标函数来评估变量子集。
顺序选择算法从一个空集(完整集)开始,添加特征(删除特征),直到得到最大目标函数。
顺序特征选择算法(SFS):
顺序后向选择算法(SBS): 该算法从完整的变量集开始,每次删除一个特征,该特征的删除使预测器性能下降最小
缺点:没有考虑特征间的依赖
顺序浮动前向选择算法(SFFS):
自适应顺序浮动前向选择算法(ASFFS):
理论上ASFFS比SFFS获得的子集冗余更少,但这取决于目标函数和数据分布
Plus-L-Minus-r 搜索算法;
启发式搜索算法通过评估不同的子集来优化目标函数。通过在搜索空间中搜索或通过生成优化问题的解来生成不同的子集。
遗传算法(GA):
对目标函数的全局极大值给出了最佳次最优子集
CHCGA:
遗传算法的改良版本
优点:收敛快,搜索速度快
缺点:
嵌入方法主要通过将特征选择作为训练过程的一部分,以减少包裹式方法对不同子集重新分类所花费的计算时间。
选择的特征满足以下两点:
I ( Y , f ) − β ∑ s ∈ S I ( f ; s ) I(Y, f)-\beta \sum_{s \in S} I(f ; s) I(Y,f)−βs∈S∑I(f;s)
Y Y Y 是输出, f f f 是当前选择的特征, s s s 是已经选择的子集 s s s 中的特征, b b b控制当前特征 f f f 与子集 S S S 中的特征之间的MI的重要性。
I ( x j ; C ) − 1 m − 1 ∑ x 1 ∈ S m − 1 I ( x j ; x l ) I\left(x_{j} ; C\right)-\frac{1}{m-1} \sum_{x_{1} \in S_{m-1}} I\left(x_{j} ; x_{l}\right) I(xj;C)−m−11x1∈Sm−1∑I(xj;xl)
x i x_i xi 是子集 S S S 中的第 m m m 个特征, C C C 为目标分类,而集合 S m − 1 S_{m-1} Sm−1 是迄今为止选择的具有 m − 1 m-1 m−1 个特征的子集。
该算法即令 I ( x j ; C ) I\left(x_{j} ; C\right) I(xj;C) “相关性”最大, 1 m − 1 ∑ x 1 ∈ S m − 1 I ( x j ; x l ) \frac{1}{m-1} \sum_{x_{1} \in S_{m-1}} I\left(x_{j} ; x_{l}\right) m−11∑x1∈Sm−1I(xj;xl) “冗余”最小
对特征排序以移除特征
w j = μ j ( + ) − μ j ( − ) σ j ( + ) + σ j ( − ) w_{j}=\frac{\mu_{j}(+)-\mu_{j}(-)}{\sigma_{j}(+)+\sigma_{j}(-)} wj=σj(+)+σj(−)μj(+)−μj(−)
其中 μ j ( + ) \mu_{j}(+) μj(+) 和 μ j ( − ) \mu_{j}(-) μj(−) 分别表示类别 + + + 和 − - −, σ j \sigma_{j} σj 表示对应类别的方差,其中 j = { 1 , 2 , . . . , D } j = \{1,2,...,D\} j={1,2,...,D}
特征选择方式:
D ( x ) = w ( x − μ ) D(x)=w(x-\mu) D(x)=w(x−μ)
w w w 是特征的排序 (rank) 或者权重 , D ( x ) D(x) D(x) 是决策, μ \mu μ 是数据的均值。因此,特征的权重可以作为分类器的权重,权重的改变可以看作特征的移除。
SVM-RFE (SVM Recursive Feature Elimination): 使用权重作为排名,并利用目标函数的变化进行搜索的SVM分类器,执行递归式特征消除。该算法主要用于二元分类算法。该算法要注意范式的选择: l 2 l_2 l2范式用于SVM最小化问题。
训练多层感知器网络,并使用从训练网络中计算的显著性度量来计算特征权值。
方法如下:
无监督学习:聚类
半监督学习:同时使用标记的数据(样本数量较少)和未标记的数据(大量可用)来修改仅由标记的数据得到的假设
集成特征选择:一个单一的特征选择算法在从自举法得到的不同数据样本子集上运行,结果被汇总以获得最终的特征集
不稳定:算法对训练数据中的任何扰动产生不同的子集
提高特征算法稳定性:
支持向量机是一种边际分类器,它使两个类中的数据样本之间的边际值最大,通过绘制最佳的超平面边界来分离数据。
决策函数:
D ( x ) = w ϕ ( x ) + b D(x)=w \phi(x)+b D(x)=wϕ(x)+b
其中 ϕ ( x ) \phi(x) ϕ(x) 将输入数据映射到M维空间的核函数
超平面到模式 x x x 的距离:
D ( x ) ∥ w ∥ \frac{D(x)}{\|w\|} ∥w∥D(x)
线性决策函数参数:
w
=
∑
k
a
k
y
k
x
k
b
=
(
y
k
−
w
∗
x
k
)
其中向量 w w w 是训练模式的线性组合, a k a_{k} ak 是支持向量, b b b 是支持向量的平均
目标方程:
J = ( 1 2 ) ∥ w ∥ 2 J=\left(\frac{1}{2}\right)\|w\|^{2} J=(21)∥w∥2
一种前馈神经网络:
隐藏层由径向对称高斯核组成:
ϕ j = e − ∥ x − x j ∥ 2 σ 2 , j = 1... M \phi_{j}=e^{-\frac{\left\|x-x_{j}\right\|^{2}}{\sigma^{2}}}, \ j=1...M ϕj=e−σ2∥x−xj∥2, j=1...M
M M M为核函数的个数, x j x_{j} xj 为核心(kernel centroid),
将核通过权重 W j W_{j} Wj 连接得到输出:
Y = ∑ j = 1 M W j ϕ j Y=\sum_{j=1}^{M} W_{j} \phi_{j} Y=j=1∑MWjϕj
训练过程中权重的计算:
W = ϕ − 1 ⋅ Y W=\phi^{-1} \cdot Y W=ϕ−1⋅Y
其中矩阵 ϕ \phi ϕ 的元素 ϕ i j \phi_{ij} ϕij 给出第 i i i 个样本的 ϕ j \phi_{j} ϕj 值。核函数的质心可以用聚类算法寻找。
交叉验证:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。