赞
踩
这次的数据集来自github,万分感激原作者的收集,数据集是京东的购物评论,分为正面情绪以及负面情绪的两个文本。
其中,正面情绪样本947条, 负面情绪样本2142条。
使用全部的单词,做词向量的训练。词向量使用gensim训练,非常地方便和快捷,强推强推!
先上词向量的代码,词向量维数100维:
- from gensim.models.word2vec import Word2Vec
- import text_util
-
- pos = text_util.load_txt("pos.txt")
- neg = text_util.load_txt("neg.txt")
-
- pos_list = text_util.seg_words(pos)
- neg_list = text_util.seg_words(neg)
-
- #创建词向量模型 由于语料库样本少 保留全部词汇进行训练
- model = Word2Vec(pos_list + neg_list, sg=1, size=100, window=5, min_count=1, negative=3, sample=0.001, hs=1, workers=4)
-
- #检测词向量之间关系
- model.similarity(u"好用", u"不错")
-
- #保存模型
- model.save("评论.model")
词向量训练完毕后,因为后面的语料预处理中有使用到CountVectorizer和TfidfVectorizer,而他们都会过滤长度为1的中文单词,这是个坑坑坑,于是笔者参考博客 http://www.cnblogs.com/zz22--/p/9492720.html, 修改了python源码中的内容,具体参考可见博客。
准备工作完成,开始使用lstm进行情感分析地训练:
(1)语料的处理
- #载入数据
- pos = textutil.load_txt("pos.txt")
- neg = textutil.load_txt("neg.txt")
-
- #分词,处理数据
- pos = textutil.seg_words_with_blank(pos)
- neg = textutil.seg_words_with_blank(neg)
-
- #混合数据
- randIt = []
- data = []
- labels = []
- for i in range(len(pos)):
- randIt.append([pos[i],[0,1]]) #正面
- for i in range(len(neg)):
- randIt.append([neg[i],[1,0]]) #负面
- for i in range(len(randIt)):
- data.append(randIt[i][0])
- labels.append(randIt[i][1])
-
- #调整超参数的设置
- batch_size = 50 #样本数
- lstm_size = 128 #lstm cell里面的神经元数目
- num_layers = 3#堆叠
- target_classes = 2#最终分为2类
- learning_rate = 0.001
- keep_prob = 0.5
- num_keywords = 2000
- word_classes = 100 #词向量维数为100维
-
- #提取关键字
- keywords = textutil.key_words(data,num_keywords)
-
- #创建由关键字组成的稀疏矩阵
- textmatrix = textutil.count_sparse_matrix(data,True)
- textmatrix = textmatrix[keywords]
-
- #整理数据
- wordlists, steps = textutil.matrix_to_wordlists(textmatrix)
- worddata = pd.DataFrame({"
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。