当前位置:   article > 正文

自然语言处理爬过的坑:基于爬虫抓取的语料,使用gensim建设dictionary、corpus、tfidf_model并保存成文件_gensim爬虫

gensim爬虫


  1. # 生成字典和向量语料
  2. dictionary = corpora.Dictionary([corpora_documents])
  3. #print(dictionary)
  4. # print 'dfs:', dictionary.dfs # 字典词频,{单词id,在多少文档中出现}
  5. print 'num_docs:', dictionary.num_docs # 文档数目
  6. print 'num_pos:', dictionary.num_pos # 所有词的个数
  7. # word_id_dict = dictionary.token2id # {词:id}
  8. # print 'word_id_dict:'
  9. # print len(word_id_dict)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/人工智能uu/article/detail/778340
推荐阅读
相关标签
  

闽ICP备14008679号