当前位置:   article > 正文

RNN实现影评情感分析_英文电影评论情感分析(基于rnn实现)

英文电影评论情感分析(基于rnn实现)

在这里我们将使用RNN(循环神经网络)对电影评论进行情感分析,结果为positive或negative,分别代表积极和消极的评论。至于为什么使用RNN而不是普通的前馈神经网络,是因为RNN能够存储序列单词信息,得到的结果更为准确。这里我们将使用一个带有标签的影评数据集进行训练模型。

使用的RNN模型架构如下: 

在这里,我们将单词传入到嵌入层而不是使用ONE-HOT编码,是因为词嵌入是一种对单词数据更好的表示。

在嵌入层之后,新的表示将会进入LSTM细胞层。最后使用一个全连接层作为输出层。我们使用sigmiod作为激活函数,因为我们的结果只有positive和negative两个表示情感的结果。输出层将是一个使用sigmoid作为激活函数的单一的单元。

数据加载

  1. import numpy as np
  2. import tensorflow as tf
  1. with open('../sentiment-network/reviews.txt', 'r') as f:
  2. reviews = f.read()
  3. with open('../sentiment-network/labels.txt', 'r') as f:
  4. labels = f.read()

查看前2000个单词

reviews[:2000]

输出:

加载完数据后就需要对数据进行预处理:

数据预处理

构建神经网络的第一步是将数据处理成合适的格式,由于我们需要将数据输入到嵌入层,因此需要将每一个单词 编码为整数形式。

在数据集中,每条评论是用换行符分隔的。为了解决这些问题,我将把文本分成每一个评论,使用\n作为分隔符。然后我可以把所有的评论组合成一个大的字符串。

首先,我们将移除数据中所有的标点符号,然后去掉所有的换行符,得到所有单独的单词组成的列表:

  1. from string import punctuation
  2. all_text = ''.join([c for c in reviews if c not in punctuation])
  3. reviews = all_text.split('\n')
  4. all_text = ''.join(reviews)
  5. words = all_text.split()

查看处理结果:

all_text[:2000]

输出:

对单词进行编码

嵌入层需要传入整数类型的数据,因此我们需要将单词编码为整数类型。最简单的方法是创建一个从单词到整数的映射的字典。然后我们能将每条评论转换为整数传入网络。

  1. from collections import Counter
  2. counts = Counter(words)
  3. vocab = sorted(counts, key=counts.get, reverse=True)
  4. vocab_to_int = {word : ii for ii, word in enumerate(vocab, 1)}
  5. reviews_ints = []
  6. for review in reviews:
  7. reviews_ints.append([vocab_to_int[word] for word in review.split()])
  8. print(len(reviews_ints))
  9. print(reviews_ints[1])
  1. print(len(reviews_ints))
  2. print(reviews_ints[1])

查看输出:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/357038
推荐阅读
相关标签
  

闽ICP备14008679号