赞
踩
翻译网址
https://github.com/thunlp/NSC
介绍:
情感分析目标:使用神经网络分析文档的情感
在这个项目中,我们提供的实现NSC, NSC +LA和NSC + UPA
用户和产品信息被认为是通过关注在不同语义的水平。
评估结果:
Evaluation results on document-level sentiment classification. Acc.(Accuracy) and RMSE are the evaluation metrics.
文档级别的情感分析结果:精准率,均方根误差
数据:
提供数据:IMDB,Yelp13,Yelp14
将原始数据处理为满足代码输入的格式
数据集包含7个文件,具体如下:
train.txt: 训练集 格式:使用者ID 产品ID 类别 文件
dev.txt: 发展集, 格式与train相同
test.txt: 测试集, 格式与train相同
wordlist.txt: 词表,相同序列的相应单词,预训练词向量,每行一个。
usrlist.txt: 使用者ID汇总,每行一个
prdlist.txt:产品ID,每行一个
embinit.save:预训练,词嵌入文件 pickle文件
代码
训练:train.py
THEANO_FLAGS="floatX=float32,device=gpu" python train.py $dataset $class
dataset:数据集文件 class:类别数。
结果保存在:model/bestmodel/
举例:
THEANO_FLAGS="floatX=float32,device=gpu" python train.py IMDB 10
测试:test.py
THEANO_FLAGS="floatX=float32,device=gpu" python test.py $dataset $class
dataset:数据集文件 class:类别数。
举例:
THEANO_FLAGS="floatX=float32,device=gpu" python test.py IMDB 10
结果:Accuracy and RMSE 显示在屏幕上
dataset.py
:处理输入数据的源程序
emblayer.py
:输入层,读取data文件夹下embinit.save(预训练词向量文件,pickle形式)
GetpEmblayer.py
:获取产品词向量表征
GetuEmblayer.py
:获取用户词向量表征
lstmlayer.py
:定义lstm-layer层,并设置相关参数
lstmmodel.py
:层级lstm模型
hiddenlayer.py
:隐藏层
poollayer.py
:池化层
prdEmblayer.py
:产品属性信息矩阵
usrEmblayer.py
:用户个性信息矩阵
updata.py
:更新各类参数
sentencesortlayer.py
:句子分类
引用:
[Chen et al., 2016] Huimin Chen, Maosong Sun, Cunchao Tu, Yankai Lin and Zhiyuan Liu. Neural Sentiment Classification with User and Product Attention.
参考文献:
[Chen et al., 2016] Huimin Chen, Maosong Sun, Cunchao Tu, Yankai Lin and Zhiyuan Liu. Neural Sentiment Classification with User and Product Attention.
[Tang et al., 2015] Duyu Tang, Bing Qin, Ting Liu. Learning Semantic Representations of Users and Products for Document Level Sentiment Classification. In Proceedings of EMNLP.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。