当前位置:   article > 正文

瞎聊机器学习——TF-IDF算法(原理及代码实现)_用c语言编程实现计算tf-idf的程序

用c语言编程实现计算tf-idf的程序

TF-IDF的概念

TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。

TF策略我在之前的高频词提取文章中进行过使用,TF用来表示词频,也就是某个词在文章中出现的总次数,也就是:

TF=某个词在文章中出现的总次数

但是考虑到每篇文章的长短是不同的,所以我们可以把上述内容进行一个标准化:

TF=某个词在文章中出现的总次数/文章的总词数

IDF用来表示逆文档频率,所谓逆文档频率其实是用来反映一个词在所有文档中出现的频率,当一个词在很多文档中出现的时候,其所对应的IDF值也应该变低,当一个词在很少的文档中出现的时候,其所对应的IDF值就会变高,用一个式子来表述一下:

IDF=log(语料库中的文档总数/(包含该词的文档数+1))

在这里我们+1的目的是为了当没有词语在文档中时来避免分母为0。

现在我们知道了TF,IDF分别代表什么,那么我们也可以得到TF-IDF:

TF-IDF=TF*IDF

并且根据上述的性质我们可以得出:TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语料库中的出现次数成反比。

TF-IDF的实现

我们了解了TF-IDF代表什么之后,下面我们来用不同的方式来实现一下该算法。

一、使用gensim来计算TF-IDF

首先我们来设定一个语料库并进行分词处理:

  1. # 建立一个语料库
  2. corpus = [
  3. "what is the weather like today",
  4. "what is for dinner tonight",
  5. "this is a question worth pondering",
  6. "it is a beautiful day today"
  7. ]
  8. # 进行分词
  9. words = []
  10. for i in corpus:
  11. words.append(i.split(" "))
  12. print(words)

得到的结果如下:

接下来我们来计算一下每个词语在当前文档中出现的次数:

  1. # 给每一个词一个ID并统计每个词在当前文档中出现的次数
  2. dic = corpora.Dictionary(words)
  3. new_corpus = [dic.doc2bow(text) for text in words]
  4. print(new_corpus)
  5. print(dic.token2id)

得到的结果如下:

doc2bow函数主要用于让dic中的内用变为bow词袋模型,其中每个括号中的第一个数代表词的ID第二个数代表在当前文档中出现的次数。(可能例子选择的不佳,这里每个词出现的次数都为1)

token2id主要用于输出一种字典类型的数据,其数据格式为:{词,对应的单词id}

如果是id2token则为:{单词id,对应的词},这里用那种形式都可以。

然后我们要训练gensim模型并保存,并加以测试:

  1. # 训练模型并保存
  2. tfidf = models.TfidfModel(new_corpus)
  3. tfidf.save("my_model.tfidf")
  4. # 载入模型
  5. tfidf = models.TfidfModel.load("my_model.tfidf")
  6. # 使用训练好的模型计算TF-IDF值
  7. string = "i like the weather today"
  8. string_bow = dic.doc2bow(string.lower().split())
  9. string_tfidf = tfidf[string_bow]
  10. print(string_tfidf)

结果如下:

由结果我们可以看出训练出来的结果左边是词的ID右边是词的tfidf值,但是对于我们在训练模型时没有训练到的词,在结果中别没有显示出来。

二、sklearn来计算TF-IDF

sklearn使用起来要比gensim方便的多,主要用到了sklearn中的TfidfVectorizer:

  1. from sklearn.feature_extraction.text import TfidfVectorizer
  2. corpus = [
  3. "what is the weather like today",
  4. "what is for dinner tonight",
  5. "this is a question worth pondering",
  6. "it is a beautiful day today"
  7. ]
  8. tfidf_vec = TfidfVectorizer()
  9. # 利用fit_transform得到TF-IDF矩阵
  10. tfidf_matrix = tfidf_vec.fit_transform(corpus)
  11. # 利用get_feature_names得到不重复的单词
  12. print(tfidf_vec.get_feature_names())
  13. # 得到每个单词所对应的ID
  14. print(tfidf_vec.vocabulary_)
  15. # 输出TF-IDF矩阵
  16. print(tfidf_matrix)

得到的部分参考结果如下:

三、用Python手动实现TF-IDF算法

上文中我们用了两种库函数来计算自定义语料库中每个单词的TF-IDF值,下面我们来手动实现一下TF-IDF:

  1. import math
  2. corpus = [
  3. "what is the weather like today",
  4. "what is for dinner tonight",
  5. "this is a question worth pondering",
  6. "it is a beautiful day today"
  7. ]
  8. words = []
  9. # 对corpus分词
  10. for i in corpus:
  11. words.append(i.split())
  12. # 如果有自定义的停用词典,我们可以用下列方法来分词并去掉停用词
  13. # f = ["is", "the"]
  14. # for i in corpus:
  15. # all_words = i.split()
  16. # new_words = []
  17. # for j in all_words:
  18. # if j not in f:
  19. # new_words.append(j)
  20. # words.append(new_words)
  21. # print(words)
  22. # 进行词频统计
  23. def Counter(word_list):
  24. wordcount = []
  25. for i in word_list:
  26. count = {}
  27. for j in i:
  28. if not count.get(j):
  29. count.update({j: 1})
  30. elif count.get(j):
  31. count[j] += 1
  32. wordcount.append(count)
  33. return wordcount
  34. wordcount = Counter(words)
  35. # 计算TF(word代表被计算的单词,word_list是被计算单词所在文档分词后的字典)
  36. def tf(word, word_list):
  37. return word_list.get(word) / sum(word_list.values())
  38. # 统计含有该单词的句子数
  39. def count_sentence(word, wordcount):
  40. return sum(1 for i in wordcount if i.get(word))
  41. # 计算IDF
  42. def idf(word, wordcount):
  43. return math.log(len(wordcount) / (count_sentence(word, wordcount) + 1))
  44. # 计算TF-IDF
  45. def tfidf(word, word_list, wordcount):
  46. return tf(word, word_list) * idf(word, wordcount)
  47. p = 1
  48. for i in wordcount:
  49. print("part:{}".format(p))
  50. p = p+1
  51. for j, k in i.items():
  52. print("word: {} ---- TF-IDF:{}".format(j, tfidf(j, i, wordcount)))

运行后的部分结果如下:

总结

TF-IDF主要用于文章中关键词的提取工作,也可用于查找相似文章、对文章进行摘要提取、特征选择(重要特征的提取)工作。

TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)
 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/357829
推荐阅读
相关标签
  

闽ICP备14008679号