【机器学习知识】在文本分类中常用的特征选择算法_机器学习文本推荐算法

作者：IT小白 | 2024-02-25 12:46:22

踩

机器学习文本推荐算法

系列说明：最近在刷牛客网的机器学习系列的题目，希望可以通过记录知识点来让自己查缺补漏，后续会持续更新哦~~~

需要的友友可以持续关注这个系列，一起进步，一起学习呀！！

（如果觉得不错的话，欢迎点赞、收藏！当然，如果有总结不到位的地方，或者有什么意见和建议，都希望在评论区进行指导和留下评论哦~~~~~这是我最大的动力！）

在文本分类中，有如下几种种常用特征选择算法：

TF（Term Frequency）词频
计算每个词在文本中出现的频率，常用于基础词袋模型的文本分类任务。

可以通过计算每一个词的TF值（词频），选择词频较高的词作为特征词
IDF（Inverse Document Frequency）逆文档频率
这个方法可以衡量一个词对于整个语料库的重要性。

计算方式：对于语料库中的每个词，计算其在不同文档中出现的次数，并将其取倒数。
这个方法常与TF一起使用，通过TF-IDF值选取关键词作为类别特征。
DF（Document Frequency）文档频率
DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
MI（Mutual Information）互信息法
互信息法用于评估词与分类标签之间的相关性。互信息越大，表示该词与分类标签的相关性越高，可以选取互信息较大的词作为特征。

注意：如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向“低频”的特征词。而词频相对较高的词，得分便会降低。如果此类型的词带了较多的信息量，那么互信息法就会变得低效。
IG（Information Gain）信息增益法
在某个特征词的缺失或存在的两种情况下，通过在语料中增加前后信息，来达到衡量某个特征词的重要性。
CHI（Chi-Square Test）卡方检验法
基于统计学中“假设检验”的思想，首先假设特征词与类别直接不相关。

计算方法：统计每个词在不同类别文档中出现的频率，并计算卡方值。卡方值越大，表示改词与文本类别的相关性越高，可以选取卡方值较大的词作为特征。

判定思路：如果利用卡法检验法分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备择假设：“特征词与类别又很高的关联度”。
WLLR（Weight Log Likelihood Ration）加权对数似然
这个方法基于词频和文档频率的统计信息来计算每个词的权重，然后使用这些权重作为文本特征。

加权对数似然方法会计算每个词在正类和负类文档中的出现频率。
WFO（Weigh Frequency and Odds）加权频率和可能性

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/140899?site

【机器学习知识】在文本分类中常用的特征选择算法_机器 学习 文本 推荐 算法

【机器学习知识】在文本分类中常用的特征选择算法_机器学习文本推荐算法