当前位置:   article > 正文

自然语言处理基础_python# 将句子转换为索引序列sentence

python# 将句子转换为索引序列sentence

Content

文本预处理;语言模型;循环神经网络基础

机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

 

一、文本预处理

文本数据的常见预处理步骤,预处理通常包括四个步骤:

  1. 读入文本
  2. 分词
  3. 建立字典,将每个词映射到一个唯一的索引(index)
  4. 将文本从词的序列转换为索引的序列,方便输入模型

Code

  1. #文本预处理具体操作
  2. #1、读入文本
  3. import collections
  4. import re
  5. def read_time_machine():
  6. with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f:
  7. lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]
  8. return lines
  9. lines = read_time_machine()
  10. print('# sentences %d' % len(lines))
  11. def tokenize(sentences, token = 'word'):
  12. #将一段话每个单词分开
  13. if token == 'word':
  14. return [sentence.split(' ') for sentence in sentences]
  15. elif token == 'char':
  16. return [list(sentence) for sentence in sentences]
  17. else:
  18. print('ERROR: unkown token type ' + token)
  19. #test
  20. tokens = tokenize(lines)
  21. tokens[0:2]
  22. #2、分词:将一个句子划分成若干个词(token),转换为一个词的序列。
  23. def tokenize(sentences, token = 'word'):
  24. #将一段话每个单词分开
  25. if token == 'word':
  26. return [sentence.split(' ') for sentence in sentences]
  27. elif token == 'char':
  28. return [list(sentence) for sentence in sentences]
  29. else:
  30. print('ERROR: unkown token type ' + token)
  31. #test
  32. tokens = tokenize(lines)
  33. tokens[0:2]
  34. #3、建立字典:为了方便模型处理,我们需要将字符串转换为数字,所以需要先构建一个字典(vocabulary),将每个词映射到一个唯一的索引编号
  35. class Vocab(object):
  36. def __init__(self, tokens, min_freq = 0, use_special_tokens = False):
  37. counter = count_corpus(tokens)
  38. self.token_freqs = list(counter.items())
  39. self.idx_to_token = []
  40. if use_special_tokens:
  41. ## padding, begin of sentence, end of sentence, unknown
  42. self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)
  43. self.idx_to_token += ['', '', '', '']
  44. else:
  45. self.unk = 0
  46. self.idx_to_token += ['']
  47. self.idx_to_token += [token for token, freq in self.token_freqs
  48. if freq >= min_freq and token not in self.idx_to_token]
  49. self.token_to_idx = dict()
  50. for idx, token in enumerate(self.idx_to_token):
  51. self.token_to_idx[token] = idx
  52. def __len__(self):
  53. return len(self.idx_to_token)
  54. def __getitem__(self, tokens):
  55. if not isinstance(tokens, (list, tuple)):
  56. return self.token_to_idx.get(tokens, self.unk)
  57. return [self.__getitem__(token) for token in tokens]
  58. def to_tokens(self, indices):
  59. if not isinstance(indices, (list, tuple)):
  60. return self.idx_to_token[indices]
  61. return [self.idx_to_token[index] for index in indices]
  62. def count_corpus(sentences):
  63. tokens = [tk for st in sentences for tk in st]
  64. return collections.Counter(tokens) # 返回一个字典,记录每个词的出现次数
  65. #test
  66. vocab = Vocab(tokens)
  67. print(list(vocab.token_to_idx.items())[0:10])
  68. #4、将词转为索引,用现有工具进行分词
  69. #使用字典,我们可以将原文本中的句子从单词序列转换为索引序列
  70. for i in range(8, 10):
  71. print('words:', tokens[i])
  72. print('indices:', vocab[tokens[i]])
  73. #用现有工具进行分词:spaCy和NLTK。
  74. import spacy
  75. nlp = spacy.load('en_core_web_sm')
  76. doc = nlp(text)
  77. print([token.text for token in doc])
  78. from nltk.tokenize import word_tokenize
  79. from nltk import data
  80. data.path.append('/home/kesci/input/nltk_data3784/nltk_data')
  81. print(word_tokenize(text))

 

二、语言模型

一段自然语言文本可以看作是一个离散时间序列,给定一个长度为T的词的序列w1,w2,…,wT,语言模型的目标就是评估该序列是否合理,即计算该序列的概率。

1、语言模型

假设序列w1,w2,…,wT中的每个词是依次生成的,我们有

语言模型的参数就是词的概率以及给定前几个词情况下的条件概率。设训练数据集为一个大型文本语料库,如维基百科的所有条目,词的概率可以通过该词在训练数据集中的相对词频来计算。

2、n元语法

序列长度增加,计算和存储多个词共同出现的概率的复杂度会呈指数级增加。n元语法通过马尔可夫假设简化模型,马尔科夫假设是指一个词的出现只与前面n个词相关,即n阶马尔可夫链(Markov chain of order n),如果n=1,那么有P(w3∣w1,w2)=P(w3∣w2)。基于n−1阶马尔可夫链,我们可以将语言模型改写为

 

以上也叫n元语法(n-grams),它是基于n−1阶马尔可夫链的概率语言模型。

问题:在一元语法中,由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而,当n较大时,n元语法需要计算并存储大量的词频和多词相邻频率。

Code

  1. #1、读取数据集
  2. with open('/home/kesci/input/jaychou_lyrics4703/jaychou_lyrics.txt') as f:
  3. corpus_chars = f.read()
  4. print(len(corpus_chars))
  5. print(corpus_chars[: 40])
  6. corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
  7. corpus_chars = corpus_chars[: 10000]
  8. #2、建立字符索引
  9. #建立字符索引
  10. idx_to_char = list(set(corpus_chars)) #去重,得到索引到字符映射
  11. char_to_idx = {char: i for i, char in enumerate(idx_to_char)} #字符到索引的映射
  12. vocab_size = len(char_to_idx)
  13. print(vocab_size)
  14. corpus_incices = [char_to_idx[char] for char in corpus_chars] #将每个字符串转化为索引,得到一个索引序列
  15. sample = corpus_incices[: 20]
  16. print('chars:', ''.join([idx_to_char[idx] for idx in sample]))
  17. print('indices:', sample)
  18. def load_data_jay_lyrics():
  19. with open('/home/kesci/input/jaychou_lyrics4703/jaychou_lyrics.txt') as f:
  20. corpus_chars = f.read()
  21. corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
  22. corpus_chars = corpus_chars[0:10000]
  23. idx_to_char = list(set(corpus_chars))
  24. char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
  25. vocab_size = len(char_to_idx)
  26. corpus_indices = [char_to_idx[char] for char in corpus_chars]
  27. return corpus_indices, char_to_idx, idx_to_char, vocab_size
  28. #时序数据的采样
  29. '''
  30. 在训练中我们需要每次随机读取小批量样本和标签。与之前章节的实验数据不同的是,时序数据的一个样本通常包含连续的字符。假设时间步数为5,样本序列为5个字符,即“想”“要”“有”“直”“升”。该样本的标签序列为这些字符分别在训练集中的下一个字符,即“要”“有”“直”“升”“机”,即=“想要有直升”,=“要有直升机”。
  31. '''
  32. import torch
  33. import random
  34. def data_iter_random(corpus_indices, batch_size, num_steps, device=None):
  35. # 减1是因为对于长度为n的序列,X最多只有包含其中的前n - 1个字符
  36. num_examples = (len(corpus_indices) - 1) // num_steps # 下取整,得到不重叠情况下的样本个数
  37. example_indices = [i * num_steps for i in range(num_examples)] # 每个样本的第一个字符在corpus_indices中的下标
  38. random.shuffle(example_indices)
  39. def _data(i):
  40. # 返回从i开始的长为num_steps的序列
  41. return corpus_indices[i: i + num_steps]
  42. if device is None:
  43. device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
  44. for i in range(0, num_examples, batch_size):
  45. # 每次选出batch_size个随机样本
  46. batch_indices = example_indices[i: i + batch_size] # 当前batch的各个样本的首字符的下标
  47. X = [_data(j) for j in batch_indices]
  48. Y = [_data(j + 1) for j in batch_indices]
  49. yield torch.tensor(X, device=device), torch.tensor(Y, device=device)
  50. #test
  51. my_seq = list(range(30))
  52. for X, Y in data_iter_random(my_seq, batch_size=2, num_steps=6):
  53. print('X: ', X, '\nY:', Y, '\n')
  54. #相邻采样
  55. #在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻
  56. def data_iter_consecutive(corpus_indices, batch_size, num_steps, device=None):
  57. if device is None:
  58. device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
  59. corpus_len = len(corpus_indices) // batch_size * batch_size # 保留下来的序列的长度
  60. corpus_indices = corpus_indices[: corpus_len] # 仅保留前corpus_len个字符
  61. indices = torch.tensor(corpus_indices, device=device)
  62. indices = indices.view(batch_size, -1) # resize成(batch_size, )
  63. batch_num = (indices.shape[1] - 1) // num_steps
  64. for i in range(batch_num):
  65. i = i * num_steps
  66. X = indices[:, i: i + num_steps]
  67. Y = indices[:, i + 1: i + num_steps + 1]
  68. yield X, Y

三、循环神经网络

于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量H,用Ht表示H在时间步t的值。Ht的计算基于Xt和Ht−1,可以认为Ht记录了到当前字符为止的序列信息,利用Ht对序列的下一个字符进行预测。

Image Name

LSTM

Image Name

 

四、机器翻译及相关技术

机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。

Image Name

 

Sequence to Sequence模型

具体结构

Image Name

五、注意力机制与Seq2seq模型

为了计算输出,我们首先假设有一个函数

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/557533
推荐阅读
相关标签