当前位置:   article > 正文

使用词向量 + lstm 做情感分析_lstm 生成词向量

lstm 生成词向量

这次的数据集来自github,万分感激原作者的收集,数据集是京东的购物评论,分为正面情绪以及负面情绪的两个文本。

其中,正面情绪样本947条, 负面情绪样本2142条。

使用全部的单词,做词向量的训练。词向量使用gensim训练,非常地方便和快捷,强推强推!

先上词向量的代码,词向量维数100维:

  1. from gensim.models.word2vec import Word2Vec
  2. import text_util
  3. pos = text_util.load_txt("pos.txt")
  4. neg = text_util.load_txt("neg.txt")
  5. pos_list = text_util.seg_words(pos)
  6. neg_list = text_util.seg_words(neg)
  7. #创建词向量模型 由于语料库样本少 保留全部词汇进行训练
  8. model = Word2Vec(pos_list + neg_list, sg=1, size=100, window=5, min_count=1, negative=3, sample=0.001, hs=1, workers=4)
  9. #检测词向量之间关系
  10. model.similarity(u"好用", u"不错")
  11. #保存模型
  12. model.save("评论.model")

词向量训练完毕后,因为后面的语料预处理中有使用到CountVectorizer和TfidfVectorizer,而他们都会过滤长度为1的中文单词,这是个坑坑坑,于是笔者参考博客 http://www.cnblogs.com/zz22--/p/9492720.html, 修改了python源码中的内容,具体参考可见博客。

准备工作完成,开始使用lstm进行情感分析地训练:

(1)语料的处理

  1. #载入数据
  2. pos = textutil.load_txt("pos.txt")
  3. neg = textutil.load_txt("neg.txt")
  4. #分词,处理数据
  5. pos = textutil.seg_words_with_blank(pos)
  6. neg = textutil.seg_words_with_blank(neg)
  7. #混合数据
  8. randIt = []
  9. data = []
  10. labels = []
  11. for i in range(len(pos)):
  12. randIt.append([pos[i],[0,1]]) #正面
  13. for i in range(len(neg)):
  14. randIt.append([neg[i],[1,0]]) #负面
  15. for i in range(len(randIt)):
  16. data.append(randIt[i][0])
  17. labels.append(randIt[i][1])
  18. #调整超参数的设置
  19. batch_size = 50 #样本数
  20. lstm_size = 128 #lstm cell里面的神经元数目
  21. num_layers = 3#堆叠
  22. target_classes = 2#最终分为2类
  23. learning_rate = 0.001
  24. keep_prob = 0.5
  25. num_keywords = 2000
  26. word_classes = 100 #词向量维数为100维
  27. #提取关键字
  28. keywords = textutil.key_words(data,num_keywords)
  29. #创建由关键字组成的稀疏矩阵
  30. textmatrix = textutil.count_sparse_matrix(data,True)
  31. textmatrix = textmatrix[keywords]
  32. #整理数据
  33. wordlists, steps = textutil.matrix_to_wordlists(textmatrix)
  34. worddata = pd.DataFrame({"
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/空白诗007/article/detail/794569
推荐阅读
相关标签
  

闽ICP备14008679号