当前位置:   article > 正文

文本向量化方法比较:tf-idf、doc2bow、doc2vec、lsi、lda

doc2bow

2018.01.28 

先放个代码和结果,改天闲了总结。
用余弦距离计算相似度以判断向量化效果
tf-idf、doc2bow稀疏,适合短文本
doc2vec效果时好时坏,偶然性大,不稳
lsi、lda效果好且较稳,但lda计算量偏大

  1. from gensim.models import doc2vec
  2. from gensim import corpora,models
  3. import jieba,os
  4. from gensim.similarities.docsim import Similarity
  5. raw_documents=[]
  6. for root,p,files in os.walk('C:/Users/Administrator/Desktop/testdata/'):
  7. for file in files:
  8. f=open(root+file,encoding='utf8')
  9. s=f.read().replace(' ','').replace('\t','').replace('\r\n','').replace('\r','').replace('\n','')
  10. raw_documents.append(s)
  11. f.close()
  12. print('data ok!')
  13. corpora_documents = []
  14. corpora_documents2=[]
  15. for i, item_text in enumerate(raw_documents):
  16. words_list = list(jieba.cut(item_text))
  17. document = doc2vec.TaggedDocument(words
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/710389
推荐阅读
相关标签
  

闽ICP备14008679号