当前位置:   article > 正文

中文文本数据结构化处理实例_中文文本结构化实例python

中文文本结构化实例python
  1. import jieba
  2. import gensim
  3. from gensim import corpora
  4. from gensim.matutils import corpus2dense
  5. f = open("背影.txt", "r+") #选取文档为中文的《背影》,将文档放在当前目录下
  6. text1 = f.readlines() #读取文件,按行读取,存入列表
  7. read = text1
  8. #text1 = f.read() #直接全部读取,是一个字符串
  9. #text1.splitlines() #按照 /n 切分
  10. f.close()
  11. f = open("stop_words.txt", "r+", encoding="GBK") #读取停用词,网上随便下载即可,注意编码方式
  12. text2 = f.read()
  13. stop_word = text2.splitlines()
  14. text = []
  15. for i in range(len(read)): #逐行读取
  16. seg_useful = []
  17. segs = jieba.cut(read[i]) #结巴分词,注意结巴分词只能针对字符串,无法处理列表
  18. for seg in segs:
  19. if seg not in stop_word:                 #删除停用词
  20. seg_useful.append(seg)
  21. text.append(seg_useful) #收集有用的词
  22. dictionary = corpora.Dictionary(text) #建立字典
  23. word_count = [dictionary.doc2bow(text[i]) for i in range(len(text))] #建立文档-词项矩阵
  24. dtm_matrix = corpus2dense(word_count, len(dictionary))
  25. dtm_matrix.T
  26. from gensim import models
  27. print(len(word_count))
  28. tfidf_model = models.TfidfModel(word_count) #建立tfidf模型
  29. tfidf = tfidf_model[word_count]
  30. print(tfidf)
  31. tfidf_matrix = corpus2dense(tfidf, len(dictionary))
  32. tfidf_matrix
  33. model = gensim.models.Word2Vec(text, size=100, window=5, min_count=2) #训练词向量
  34. model.wv[u'月台']
因为库函数可能会更新,导致部分函数无法使用,所以使用时请注意时间,现在是2018/3/29
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/376311
推荐阅读
相关标签
  

闽ICP备14008679号