当前位置:   article > 正文

TYD-python数据分析与机器学习实战(文本挖掘部分笔记)_蜜蜂养殖提取完关键词可以做哪些任务机器学习

蜜蜂养殖提取完关键词可以做哪些任务机器学习

一、19章 Python文本数据分析:新闻分类任务

1.1 TF-IDF:关键词提取

TF就是Term Frequency 词频,IDF 是Inverse Document Frequency

1.对语料/文本进行词频统计(Term Frequency),比如说对《中国的蜜蜂养殖》这个文本进行统计
2.出现最多的是:的,是,在等常用词,也就是停用词,要删去的
3.剩下的有:中国,蜜蜂,养殖,这三个词经常出现,但是很明显这三个词重要性不一样,就比如说中国,这个词在所有文本中都太常见了,在这个《中国的蜜蜂养殖》文本中就不太重要。
4.而蜜蜂,养殖这两个词对于其他文本来说出现的次数就少,对于《中国的蜜蜂养殖》来说就很重要,突出了主题

IDF:逆文档频率
如果某个词很少见,但在某个文档中出现次数很多,那么它很可能反映这个文档的特性。正是我们要找的关键词
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/713386
推荐阅读
相关标签
  

闽ICP备14008679号