当前位置:   article > 正文

Gensim:TF-IDF_gensim tfidf

gensim tfidf

调用gensim库对训练集文本得到文本的TF-IDF表示

  1. # 将文档转换成词典和词库
  2. def CorpusAndDic(texts):
  3. # 词典
  4. dictionary = gensim.corpora.Dictionary(texts)
  5. # 词库,以(词,词频方式存储)
  6. corpus = [dictionary.doc2bow(text) for text in texts]
  7. print("词典:", dictionary)
  8. print("词库:", corpus)
  9. return dictionary, corpus
  10. dictionary, corpus = CorpusAndDic(out_sentences)
  11. # 初始化TF-IDF模型,corpus作为语料库
  12. tfidf = gensim.models.TfidfModel(corpus)
  13. # 使用tfidf模型将自身的词库转换成tf-idf表示
  14. corpus_tfidf = tfidf[corpus]
  15. index = 1
  16. for doc in corpus_tfidf:
  17. print('第',index,'个文档:',doc)
  18. index+=1

词向量部分代码参考:Gensim:word2vec(jieba分词,去停用词)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/354431
推荐阅读
相关标签
  

闽ICP备14008679号