数据挖掘-文本分类：特征选择方法总结

作者：Cpp五条 | 2024-02-25 12:53:24

踩

表征学习文本数据上下文特征挖掘方法

一、概念

二、特征选择方法总结

一、概念

特征词选择和特征词权重

1.特征词选择：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

常见的且基础的文本特征选择的算法有基于文档频率(DocumentFrequency)、信息增益(InformationGain,IG)、开方拟和检验方法(CHI统计)、互信息(mutualInformation)、潜在语义分析LSA、期望值交叉算熵、文本证据权、termstrength(TS)、GSSCoefficient、oddsratio。

2.特征词权重：每一个特征项的重要程度

常见的算法：TF-IDF，TF的改进，信息熵的引用

3.区别：特征词选择是为了降低文本表示的维度，而特征词权重是为了表示文本表示中每一个特征项的重要程度。

二、特征选择方法总结

1.文档频率

词条的文档频率（documen

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/140926