赞
踩
Abstract:TF-IDF算法是一种常用的词频统计方法,常被用于关键词提取、文本摘要、文章相似度计算等。
TF词频(Text Frequency):统计出现次数最多的词
IDF逆文档频率(Inverse Document Frequency):大小与一个词的常见程度成反比;即给某些词分配“重要性”权重(平时比较少见而在这篇文章里多次出现的词应给予较高权重,而平时也很常见的则分配较低权重(过滤停用词))
TF X IDF = 某个词的TF-IDF值,某个词对文章的重要性越高,其TF-IDF值越大,值最大的几个词即为关键词
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。