赞
踩
特征选择目的:
选出能够很好反映文本内容的词,
以降低文本向量空间维数,
提高分类
器的分类效率和分类精度。
特征选择方法:
1
、
基于独立评估的
:
构造一个评估函数,
利用评估函数对特征集合的每个特征进行独
立评估,
每个特征获得一个评估值,
然后按照评估值从大到小的顺序对特征集合的特征进行
排序,
最后按照预先设定的阀值或预先设定的特征选择的个数选取最佳特征子集作为特征选
择的结果。
2
、
基于综合评估的:
从特征集合中找出较少的描述这些特征的综合指标,
然后利用该综
合指标对特征集合进行特征选择操作。
常用的特征选择方法:
文档频率
(
DF
)
、
信息增益
(
IG
)
、
互信息
(
MI
)
、
x2
统计量
(
CHI
)
等。
1.
文档频率(
DF
)
:在训练语料库中出现的特征词条的文档数。
DF(ti,cj)=
类别
cj
中包含特征词条
ti
的文档数
/
类别
cj
的总文档数
基本思想:
首先设定最小和最大文档频率阀值,
然后计算每个特征词条的文档频率,
如果该特征词条的文档频率大于最大文本频率阀值或小于最小文档频率阀值,
则删
除该词条,否则保留。
(文档频率过小,表示该特征词条是低频词,没有代表性;
相反如果特征词条文档频率过大,则表示该特征词条没有区分度,这样的特征词条
对分类都没有多大影响,所以删除它们不会影响分类效果。
)
2
、信息增益(
IG
)
熵增原理定义:
在孤立热力系所发生的不可逆微变化过程中,
熵的变化量永远大于系统从热源吸收的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。