当前位置:   article > 正文

文本特征表示方法——词频-逆文档频率(TF-IDF)

逆文档频率

文本特征表示方法——词频-逆文档频率(TF-IDF)

0 引言

\qquad 词频-逆文档频率(TF-IDF)是Salton于1988年提出的一种权重计算方法,用于判断字词对于一个文档集合的重要性。在介绍TF-IDF之前,需要先对词频(TF)、逆文档频率(IDF)分别进行介绍。

1 词频(Term Frequency, TF)

\qquad 词频(Term Frequency, TF)即词的频率,表示词条项在一个文档中出现的频率,计算公式如下:

t f t , d = f t , d n d tf_{t,d} = \frac{f_{t,d}}{n_{d}} tft,d=ndft,d

\qquad 其中, t f t , d tf_{t,d} tft,d表示词条项 t t t在某文档 D D D中词频, f t , d f_{t,d} ft,d表示文档 D D D中,特征词条 t t t的频度(次数), n d n_{d} nd表示文档 D D D中所有词条项的总数量。本文中将词条项归一化后的结果作为词频,而有些文章会直接以词条项出现的次数作为词频,但是这就导致了文档长度会对词条项权重产生影响。

\qquad 但是词频仅仅考虑了词条项在某文档中的频率,而没有考虑词条项对于整个文档库或语料库的重要程度,并且也无法判断某词条项对不同文档的重要性,即词频无法作为文档类别区分的有效特征。比如,"我"在每篇文档中都有,它的词频很大,但这个字并不能有效区分文档类别。相反,"高兴"可能只出现在个别文档当中,它的词频很小,但是这个词条项却可以让我们知道,带有"喜欢"的文档的情感极性是正的。

2 逆向文档频率(inverse document frequency, IDF)

\qquad 逆向文档频率(inverse document frequency, IDF)是一种度量词条项在文档中重要性的方式。IDF的原理是对于某一个特征词条项,包含此词条项的文档数量越少,此词条项就具有越强的文档类别特征。具体公式如式:

id f t = log ⁡   N d f t \text{id}f_{t} = \log{\ \frac{N}{df_{t}}} idft=log dftN

\qquad 其中, id f t \text{id}f_{t} idft为词条项 t t t的逆文档频率, N N N为所有文档数量, d f t df_{t} dft为文档频率(document frequency),表示出现词条项 t t t的所有文档的数量。需要强调的是,在具体计算过程中,常常会将 d f t + 1 df_{t} + 1 dft+1,防止出现词条项不在语料库中而造成分母为0的现象。

3 词频-逆文档频率(TF-IDF)

\qquad 词频-逆文档频率(TF-IDF)即通过综合考虑词的TF与IDF来计算特征词项的权重,其计算方法即特征词项的词频与逆文档频率的乘积。其计算公式:

tf − id f t , d = t f t , d   × id f t \text{tf}-\text{id}f_{t,d} = tf_{t,d}\ \times \text{id}f_{t} tfidft,d=tft,d ×idft

\qquad 对以上公式进行通俗解释:当词项只在少数几篇文档中多次出现时,权值最大,因为此时该词条能够对文档提供最强的区分能力;当词项在某篇文档中出现次数很少,或者在很多文档中出现,权重取值次之;当词项在所有文档中都出现时,权值最小。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/369187
推荐阅读
相关标签
  

闽ICP备14008679号