当前位置:   article > 正文

自然语言处理-情感分析及数据集_情感分析训练集

情感分析训练集

情感分析及数据集

随着在线社交媒体和评论平台的快速发展,大量评论的数据被记录下来。这些数据具有支持决策过程的巨大潜力。 情感分析(sentiment analysis)研究人们在文本中 (如产品评论、博客评论和论坛讨论等)“隐藏”的情绪。 它在广泛应用于政治(如公众对政策的情绪分析)、 金融(如市场情绪分析)和营销(如产品研究和品牌管理)等领域。

由于情感可以被分类为离散的极性或尺度(例如,积极的和消极的),我们可以将情感分析看作一项文本分类任务,它将可变长度的文本序列转换为固定长度的文本类别。在本章中,我们将使用斯坦福大学的大型电影评论数据集(large movie review dataset)进行情感分析。它由一个训练集和一个测试集组成,其中包含从IMDb下载的25000个电影评论。在这两个数据集中,“积极”和“消极”标签的数量相同,表示不同的情感极性。

  1. import os
  2. from mxnet import np, npx
  3. from d2l import mxnet as d2l
  4. npx.set_np()

读取数据集

首先,下载并提取路径../data/aclImdb中的IMDb评论数据集。

  1. #@save
  2. d2l.DATA_HUB['aclImdb'] = (
  3. 'http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz',
  4. '01ada507287d82875905620988597833ad4e0903')
  5. data_dir = d2l.download_extract('aclImdb', 'aclImdb')

接下来,读取训练和测试数据集。每个样本都是一个评论及其标签:1表示“积极”,0表示“消极”。

  1. #@save
  2. def read_imdb(data_dir, is_train):
  3. """读取IMDb评论数据集文本序列和标签"""
  4. data, labels = [], []
  5. for label in ('pos', 'neg'):
  6. folder_name = os.path.join(data_dir, 'train' if is_train else 'test',
  7. label)
  8. for file in os.listdir(folder_name):
  9. with open(os.path.join(folder_name, file), 'rb') as f:
  10. review = f.read().decode('utf-8').replace('\n', '')
  11. data.append(review)
  12. labels.append(1 if label == 'pos' else 0)
  13. return data, labels
  14. train_data = read_imdb(data_dir, is_train=True)
  15. print('训练集数目:', len(train_data[0]))
  16. for x, y in zip(train_data[0][:3], train_data[1][:3]):
  17. print('标签:', y, 'review:', x[0:60])

训练集数目: 25000 标签: 1 review: Zentropa has much in common with The Third Man, another noir 标签: 1 review: Zentropa is the most original movie I've seen in years. If y 标签: 1 review: Lars Von Trier is never backward in trying out new technique 

预处理数据集

将每个单词作为一个词元,过滤掉出现不到5次的单词,我们从训练数据集中创建一个词表。

  1. train_tokens = d2l.tokenize(train_data[0], token='word')
  2. vocab = d2l.Vocab(train_tokens, min_freq=5, reserved_tokens=['<pad>'])

在词元化之后,让我们绘制评论词元长度的直方图。

  1. d2l.set_figsize()
  2. d2l.plt.xlabel('# tokens per review')
  3. d2l.plt.ylabel('count')
  4. d2l.plt.hist([len(line) for line in train_tokens], bins=range(0, 1000, 50));

 

正如我们所料,评论的长度各不相同。为了每次处理一小批量这样的评论,我们通过截断和填充将每个评论的长度设置为500。

  1. num_steps = 500 # 序列长度
  2. train_features = np.array([d2l.truncate_pad(
  3. vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
  4. print(train_features.shape)

(25000, 500) [07:12:31] ../src/storage/storage.cc:196: Using Pooled (Naive) StorageManager for CPU

创建数据迭代器

现在我们可以创建数据迭代器了。在每次迭代中,都会返回一小批量样本。

  1. train_iter = d2l.load_array((train_features, train_data[1]), 64)
  2. for X, y in train_iter:
  3. print('X:', X.shape, ', y:', y.shape)
  4. break
  5. print('小批量数目:', len(train_iter))

X: (64, 500) , y: (64,)

小批量数目: 391 

整合代码

最后,我们将上述步骤封装到load_data_imdb函数中。它返回训练和测试数据迭代器以及IMDb评论数据集的词表。

  1. #@save
  2. def load_data_imdb(batch_size, num_steps=500):
  3. """返回数据迭代器和IMDb评论数据集的词表"""
  4. data_dir = d2l.download_extract('aclImdb', 'aclImdb')
  5. train_data = read_imdb(data_dir, True)
  6. test_data = read_imdb(data_dir, False)
  7. train_tokens = d2l.tokenize(train_data[0], token='word')
  8. test_tokens = d2l.tokenize(test_data[0], token='word')
  9. vocab = d2l.Vocab(train_tokens, min_freq=5)
  10. train_features = np.array([d2l.truncate_pad(
  11. vocab[line], num_steps, vocab['<pad>']) for line in train_tokens])
  12. test_features = np.array([d2l.truncate_pad(
  13. vocab[line], num_steps, vocab['<pad>']) for line in test_tokens])
  14. train_iter = d2l.load_array((train_features, train_data[1]), batch_size)
  15. test_iter = d2l.load_array((test_features, test_data[1]), batch_size,
  16. is_train=False)
  17. return train_iter, test_iter, vocab

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/700335
推荐阅读
相关标签
  

闽ICP备14008679号