赞
踩
TF就是Term Frequency 词频,IDF 是Inverse Document Frequency
1.对语料/文本进行词频统计(Term Frequency),比如说对《中国的蜜蜂养殖》这个文本进行统计
2.出现最多的是:的,是,在等常用词,也就是停用词,要删去的
3.剩下的有:中国,蜜蜂,养殖,这三个词经常出现,但是很明显这三个词重要性不一样,就比如说中国,这个词在所有文本中都太常见了,在这个《中国的蜜蜂养殖》文本中就不太重要。
4.而蜜蜂,养殖这两个词对于其他文本来说出现的次数就少,对于《中国的蜜蜂养殖》来说就很重要,突出了主题
IDF:逆文档频率
如果某个词很少见,但在某个文档中出现次数很多,那么它很可能反映这个文档的特性。正是我们要找的关键词
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。