当前位置:   article > 正文

数据挖掘-文本分类:特征选择方法总结

表征学习文本数据上下文特征挖掘方法

一、概念

二、特征选择方法总结

 

一、概念

   特征词选择和特征词权重

   1.特征词选择:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。

   常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。

   

   2.特征词权重:每一个特征项的重要程度

   常见的算法:TF-IDF,TF的改进,信息熵的引用

 

   3.区别:特征词选择是为了降低文本表示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。

 

二、特征选择方法总结

   1.文档频率

   词条的文档频率(documen

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号