当前位置:   article > 正文

【算法】TF-IDF(Term Frequency-Inverse Document Frequency)算法详解

term frequency-inverse document frequency

目录

概述

术语解释

词频(Term Frequency)

文档频率(Document Frequency)

倒排文档频率(Inverse Document Frequency)

计算(Computation)

代码语法

代码展示

安装相关包

测试代码及其结果

结果整理


概述

TF-IDF代表记录的词频倒排文档频率。它可以定义为计算一个词在一系列或语料库中与文本的相关性。其含义与词在文本中出现的次数成比例增加,但受语料库(数据集)中该词的频率的补偿。

术语解释

词频(Term Frequency

在文档d中,频率表示给定词t的实例数量。因此,我们可以看到当一个词在文本中出现时,它变得更相关,这是合理的。由于术语的顺序不重要,我们可以使用一个向量来描述基于词袋模型的文本。对于论文中的每个特定术语,都有一个条目,其值是词频。

在文档中出现的术语的权重与该术语的词频成正比。

tf(t,d)=t在文档d的数量文档d词总量

延伸:BM25 TF 计算(Bese Match25 Term Frequency)

用于测量特定文档中词项的频率,同时进行文档长度和词项饱和度的调整。

score=tf(k1+1)tf+k1(1b+bfieldLengthavgFieldLength)

freq: 词项在文档中的频率。 k1: 用于控制词项频率饱和度的调节参数(通常为1.2)。 b: 用于控制字段长度归一化的调节参数(通常为0.75)。 fieldLength: 文档中字段的长度。 avgFieldLength: 所有文档中字段平均长度。

文档频率(Document Frequency)

这测试了文本在整个语料库集合中的意义,与TF非常相似。唯一的区别在于,在文档d中,TF是词项t的频率计数器,而df是词项t在文档集N中的出现次数。换句话说,包含该词的论文数量即为DF。

df(t,documents)=tdocuments数量documents词总量

倒排文档频率(Inverse Document Frequency)

主要用于测试词语的相关性。搜索的主要目标是找到符合需求的适当记录。由于tf认为所有术语同等重要,因此仅使用词频来衡量论文中术语的权重并不充分。首先,通过计算包含术语t的文档数量来找到术语t的文档频率:

$ df(t) = N(t) $

其中,$df(t)$为术语t的文档频率,$N(t)$为包含术语t的文档数量。

术语频率是指一个单一文档中术语出现的次数;而文档的频率是该术语在多个文档中出现的独立次数,它取决于整个语料库。现在让我们来看一下倒排文档频率的定义。词语的倒排文档频率是语料库中包含该词的文档数量与文本频率的倒数。$N$表示总文档数。

idf(t)=Ndf(t)=NN(t)

常见的词语应被认为不太重要,但是采用最确定的整数元素似乎过于严格。因此,我们取该词在文档中的逆频率的对数(以2为底)。因此,术语t的逆文档频率(idf)变为:

idf(t)=log(Ndf(t))

延伸:在ES中使用的形式如下,通过设置ES查询的 "explain": true 参数可见。

​{idf}(t)=log(1+​{N}​{​{df}(t)}+0.5​{​{df}(t)}+0.5)

0.5 是为了平滑,以避免由零除和对非常罕见的术语进行过度加权。

计算(Computation

TF-IDF是确定一个词对于一系列文本或语料库的重要性的最佳度量之一。TF-IDF是一个加权系统,根据词频(TF)和逆文档频率(IDF)为文档中的每个词分配权重。具有更高权重得分的词被视为更重要。

通常,TF-IDF权重由两个术语组成:

  • 规范化词频(TF)
  • 逆文档频率(IDF)

tf-idf(t,d)=tf(t,d)×idf(t)

代码语法

在Python中,可以使用sklearn模块中的TfidfVectorizer()方法计算TF-IDF值。

sklearn.feature_extraction.text.TfidfVectorizer(input)

Parameters:

input: 指定要传递的文档参数,可以是文件名、文件或文本内容本身。

Attributes:

vocabulary_: 返回一个字典,其中术语是键,特征索引是值。**

idf_: 返回作为参数传递的文档的逆文档频率向量。

Returns:

fit_transform(): 返回一个包含术语及其TF-IDF值的数组。

get_feature_names():返回一个特征名称列表。

代码展示

安装相关包

pip install scikit-learn

测试代码及其结果

  1. from sklearn.feature_extraction.text import TfidfVectorizer
  2. # 定义文档
  3. d0 = 'Euler is a great man'
  4. d1 = 'Euler'
  5. d2 = 'nothing'
  6. # 合并文档成为一个单一的语料库。
  7. string = [d0, d1, d2]
  8. # 从fit_transform()方法中获取TF-IDF值。
  9. # 创建对象
  10. tfidf = TfidfVectorizer()
  11. # 获取 tf-df 值
  12. result = tfidf.fit_transform(string)
  13. # 打印语料库中单词的逆文档频率(IDF)值。
  14. for ele1, ele2 in zip(tfidf.get_feature_names_out(), tfidf.idf_):
  15. print(ele1, ':', ele2)
  16. # IDF结果输出 >>>
  17. """
  18. euler : 1.2876820724517808
  19. great : 1.6931471805599454
  20. is : 1.6931471805599454
  21. man : 1.6931471805599454
  22. nothing : 1.6931471805599454
  23. """
  24. # 索引获取
  25. >>> tfidf.vocabulary_
  26. """
  27. {'euler': 0, 'is': 2, 'great': 1, 'man': 3, 'nothing': 4}
  28. """
  29. # tf-idf
  30. >>> print(result)
  31. # (文档编号,单词索引) tf-idf
  32. """
  33. (0, 3) 0.5286346066596935
  34. (0, 1) 0.5286346066596935
  35. (0, 2) 0.5286346066596935
  36. (0, 0) 0.4020402441612698
  37. (1, 0) 1.0
  38. (2, 4) 1.0
  39. """
  40. # 可通过如下方式转成matrix形式
  41. >>> result.toarray()
  42. """
  43. array([[0.40204024, 0.52863461, 0.52863461, 0.52863461, 0. ],
  44. [1. , 0. , 0. , 0. , 0. ],
  45. [0. , 0. , 0. , 0. , 1. ]])
  46. """

结果整理

DocumentWordDocument IndexWord Indextf-idf value
d0euler000.4020402441612698
d1euler101.0
d0is020.5286346066596935
d0great010.5286346066596935
d0man030.5286346066596935
d2nothing241.0

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/369193
推荐阅读
相关标签
  

闽ICP备14008679号