赞
踩
文本分类中,如何定义一个词出现的频率呢?如果仅仅用这个词在文章中出现的次数来定义词频,那么某个词在长文件中的词频一般会大于这个词在短文件中的词频。不能说这个词就是长文件一个好的标识词,为了避免这种情况可以使用TF来表示,TF=某词出现次数/总词数。还有像汉语中“的”、“地”、“我们”等这些词,在文章中出现的频率很高,但是对文章分类的作用几乎没有,所以如果只用TF来定义词频,无法避免此类问题,可以再定义IDF,IDF=lg(总文章数/出现某个词的文章数)。这样两种情况都考虑,取它们的乘积(词频=TF*IDF)作为某个词的词频效果就会很好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。