当前位置:   article > 正文

使用torchtext导入NLP数据集

split ratio must be float or a list, got

如果你是pytorch的用户,可能你会很熟悉pytorch生态圈中专门预处理图像数据集的torchvision库。从torchtext这个名字我们也能大概猜到该库是pytorch圈中用来预处理文本数据集的库,但这方面的教程网络上比较少,今天我就讲讲这个特别有用的文本分析库。

简介

torchtext在文本数据预处理方面特别强大,但我们要知道ta能做什么、不能做什么,并如何将我们的需求用torchtext实现。虽然torchtext是为pytorch而设计的,但是也可以与keras、tensorflow等结合使用。官方文档地址 https://torchtext.readthedocs.io/en/latest/index.html

  1. # 安装
  2. !pip3 install torchtext

自然语言处理预处理的工作流程:

  1. Train/Validation/Test数据集分割

  2. 文件数据导入(File Loading)

  3. 分词(Tokenization) 文本字符串切分为词语列表

  4. 构建词典(Vocab) 根据训练的预料数据集构建词典

  5. 数字映射(Numericalize/Indexify) 根据词典,将数据从词语映射成数字,方便机器学习

  6. 导入预训练好的词向量(word vector)

  7. 分批(Batch) 数据集太大的话,不能一次性让机器读取,否则机器会内存崩溃。解决办法就是将大的数据集分成更小份的数据集,分批处理

  8. 向量映射(Embedding Lookup) 根据预处理好的词向量数据集,将5的结果中每个词语对应的索引值变成 词语向量

上面8个步骤,torchtext实现了2-7。第一步需要我们自己diy,好在这一步没什么难度

  1. "The quick fox jumped over a lazy dog."
  2. # 分词
  3. ["The", "quick", "fox", "jumped", "over", "a", "lazy", "dog", "."]
  4. # 构建词典
  5. {"The" -> 0,
  6. "quick"-> 1,
  7. "fox" -> 2,
  8. ...}
  9. # 数字映射(将每个词根据词典映射为对应的索引值)
  10. [0, 1, 2, ...]
  11. # 向量映射(按照导入的预训练好的词向量数据集,把词语映射成向量)
  12. [
  13. [0.3, 0.2, 0.5],
  14. [0.6, 0., 0.1],
  15. [0.8, 01., 0.4],
  16. ...
  17. ]

一、数据集分割

一般我们做机器学习会将数据分为训练集和测试集,而在深度学习中,需要多轮训练学习,每次的学习过程都包括训练和验证,最后再进行测试。所以需要将数据分成训练、验证和测试数据。

  1. import pandas as pd
  2. import numpy as np
  3. def split_csv(infile, trainfile, valtestfile, seed=999, ratio=0.2):
  4. df = pd.read_csv(infile)
  5. df["text"] = df.text.str.replace("\n", " ")
  6. idxs = np.arange(df.shape[0])
  7. np.random.seed(seed)
  8. np.random.shuffle(idxs)
  9. val_size = int(len(idxs) * ratio)
  10. df.iloc[idxs[:val_size], :].to_csv(valtestfile, index=False)
  11. df.iloc[idxs[val_size:], :].to_csv(trainfile, index=False)
  12. #先将sms_spam.csv数据分为train.csv和test.csv
  13. split_csv(infile='data/sms_spam.csv',
  14. trainfile='data/train.csv',
  15. valtestfile='data/test.csv',
  16. seed=999,
  17. ratio=0.2)
  18. #再将train.csv分为dataset_train.csv和dataset_valid.csv
  19. split_csv(infile='data/train.csv',
  20. trainfile='data/dataset_train.csv',
  21. valtestfile='data/dataset_valid.csv',
  22. seed=999,
  23. ratio=0.2)
1.1 参数解读

split_csv(infile, trainfile, valtestfile, seed, ratio)

  • infile:待分割的csv文件

  • trainfile:分割出的训练cs文件

  • valtestfile:分割出的测试或验证csv文件

  • seed:随机种子,保证每次的随机分割随机性一致

  • ratio:测试(验证)集占数据的比例

经过上面的操作,我们已经构建出实验所需的数据:

  • 训练数据(这里说的是dataset_train.csv而不是train.csv)

  • 验证数据(dataset_train.csv)

  • 测试数据(test.csv)。

二、分词

导入的数据是字符串形式的文本,我们需要将其分词成词语列表。英文最精准的分词器如下:

  1. import re
  2. import spacy
  3. import jieba
  4. #英文的分词器
  5. NLP = spacy.load('en_core_web_sm')
  6. MAX_CHARS = 20000 #为了降低处理的数据规模,可以设置最大文本长度,超过的部分忽略,
  7. def tokenize1(text):
  8. text = re.sub(r"\s", " ", text)
  9. if (len(text) > MAX_CHARS):
  10. text = text[:MAX_CHARS]
  11. return [
  12. x.text for x in NLP.tokenizer(text) if x.text != " " and len(x.text)>1]
  13. #有的同学tokenize1用不了,可以使用tokenize2。
  14. def tokenize2(text):
  15. text = re.sub(r"\s", " ", text)
  16. if (len(text) > MAX_CHARS):
  17. text = text[:MAX_CHARS]
  18. return [w for w in text.split(' ') if len(w)>1]
  19. #中文的分类器比较简单
  20. def tokenize3(text):
  21. if (len(text) > MAX_CHARS):
  22. text = text[:MAX_CHARS]
  23. return [w for w in jieba.lcut(text) if len(w)>1]
  24. print(tokenize1('Python is powerful and beautiful!'))
  25. print(tokenize2('Python is powerful and beautiful!'))
  26. print(tokenize3('Python强大而美丽!'))

Run

  1. ['Python', 'is', 'powerful', 'and', 'beautiful']
  2. ['Python', 'is', 'powerful', 'and', 'beautiful!']
  3. ['Python', '强大', '美丽']

三、 导入数据

torchtext中使用torchtext.data.TabularDataset来导入自己的数据集,并且我们需要先定义字段的数据类型才能导入。要按照csv中的字段顺序来定义字段的数据类型,我们的csv文件中有两个字段(label、text)

  1. import pandas as pd
  2. df = pd.read_csv('data/train.csv')
  3. df.head()

640?wx_fmt=png

  1. import torch
  2. import torchtext
  3. from torchtext import data
  4. import logging
  5. LABEL = data.LabelField(dtype = torch.float)
  6. TEXT = data.Field(tokenize = tokenize1,
  7. lower=True,
  8. fix_length=100,
  9. stop_words=None)
  10. train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹
  11. train='dataset_train.csv',
  12. validation='dataset_valid.csv',
  13. test = 'test.csv',
  14. format='csv',
  15. skip_header=True,
  16. fields = [('label', LABEL),('text', TEXT)])
  17. train

Run

<torchtext.data.dataset.TabularDataset at 0x120d8ab38>

四、构建词典

根据训练(上面得到的train)的预料数据集构建词典。这两有两种构建方式,一种是常规的不使用词向量,而另一种是使用向量的。区别仅仅在于vectors是否传入参数

  1. vects = torchtext.vocab.Vectors(name = 'glove.6B.100d.txt',
  2. cache = 'data/')
  3. TEXT.build_vocab(train,
  4. max_size=2000,
  5. min_freq=50,
  6. vectors=vects, #vects替换为None则不使用词向量
  7. unk_init = torch.Tensor.normal_)
4.1 TEXT是Field对象,该对象的方法有

640?wx_fmt=png

  1. print(type(TEXT))
  2. print(type(TEXT.vocab))

Run

  1. <class 'torchtext.data.field.Field'>
  2. <class 'torchtext.vocab.Vocab'>

词典-词语列表形式,这里只显示前20个

TEXT.vocab.itos[:20]
  1. ['<unk>',
  2. '<pad>',
  3. 'to',
  4. 'you',
  5. 'the',
  6. '...',
  7. 'and',
  8. 'is',
  9. 'in',
  10. 'me',
  11. 'it',
  12. 'my',
  13. 'for',
  14. 'your',
  15. '..',
  16. 'do',
  17. 'of',
  18. 'have',
  19. 'that',
  20. 'call']

词典-字典形式

TEXT.vocab.stoi
  1. defaultdict(<bound method Vocab._default_unk_index of <torchtext.vocab.Vocab object at 0x1214b1e48>>,
  2. {'<unk>': 0,
  3. '<pad>': 1,
  4. 'to': 2,
  5. 'you': 3,
  6. 'the': 4,
  7. '...': 5,
  8. 'and': 6,
  9. 'is': 7,
  10. 'in': 8,
  11. ....
  12. 'mother': 0,
  13. 'english': 0,
  14. 'son': 0,
  15. 'gradfather': 0,
  16. 'father': 0,
  17. 'german': 0)
4.2 注意

train数据中生成的词典,里面有,这里有两个要注意:

  • 是指不认识的词语都编码为

  • 、german、father等都编码为0,这是因为我们要求词典中出现的词语词频必须大于50,小于50的都统一分配一个索引值。

词语you对应的词向量

TEXT.vocab.vectors[3]
  1. tensor([-0.4989, 0.7660, 0.8975, -0.7855, -0.6855, 0.6261, -0.3965, 0.3491,
  2. 0.3333, -0.4523, 0.6122, 0.0759, 0.2253, 0.1637, 0.2810, -0.2476,
  3. 0.0099, 0.7111, -0.7586, 0.8742, 0.0031, 0.3580, -0.3523, -0.6650,
  4. 0.3845, 0.6268, -0.5154, -0.9665, 0.6152, -0.7545, -0.0124, 1.1188,
  5. 0.3572, 0.0072, 0.2025, 0.5011, -0.4405, 0.1066, 0.7939, -0.8095,
  6. -0.0156, -0.2289, -0.3420, -1.0065, -0.8763, 0.1516, -0.0853, -0.6465,
  7. -0.1673, -1.4499, -0.0066, 0.0048, -0.0124, 1.0474, -0.1938, -2.5991,
  8. 0.4053, 0.4380, 1.9332, 0.4581, -0.0488, 1.4308, -0.7864, -0.2079,
  9. 1.0900, 0.2482, 1.1487, 0.5148, -0.2183, -0.4572, 0.1389, -0.2637,
  10. 0.1365, -0.6054, 0.0996, 0.2334, 0.1365, -0.1846, -0.0477, -0.1839,
  11. 0.5272, -0.2885, -1.0742, -0.0467, -1.8302, -0.2120, 0.0298, -0.3096,
  12. -0.4339, -0.3646, -0.3274, -0.0093, 0.4721, -0.5169, -0.5918, -0.3234,
  13. 0.2005, -0.4118, 0.4054, 0.7850])
4.3 计算词语的相似性

得用词向量构建特征工程时能保留更多的信息量(词语之间的关系)

  • 这样可以看出词语的向量方向

  • 是同义还是反义

  • 距离远近。

640?wx_fmt=png

而这里我们粗糙的用余弦定理计算词语之间的关系,没有近义反义关系,只能体现出距离远近(相似性)。

  1. from sklearn.metrics.pairwise import cosine_similarity
  2. import numpy as np
  3. def simalarity(word1, word2):
  4. word_vec1 = TEXT.vocab.vectors[TEXT.vocab.stoi[word1]].tolist()
  5. word_vec2 = TEXT.vocab.vectors[TEXT.vocab.stoi[word2]].tolist()
  6. vectors = np.array([word_vec1, word_vec2])
  7. return cosine_similarity(vectors)
  8. print(simalarity('you', 'your'))

Run

  1. [[1. 0.83483314]
  2. [0.83483314 1. ]]

五、get_dataset函数

相似的功能合并成模块,可以增加代码的可读性。这里我们把阶段性合并三四的成果get_dataset函数

  1. from torchtext import data
  2. import torchtext
  3. import torch
  4. import logging
  5. LOGGER = logging.getLogger("导入数据")
  6. def get_dataset(stop_words=None):
  7. #定义字段的数据类型
  8. LABEL = data.LabelField(dtype = torch.float)
  9. TEXT = data.Field(tokenize = tokenize1,
  10. lower=True,
  11. fix_length=100,
  12. stop_words=stop_words)
  13. LOGGER.debug("准备读取csv数据...")
  14. train, valid, test = data.TabularDataset.splits(path='data', #数据所在文件夹
  15. train='dataset_train.csv',
  16. validation='dataset_valid.csv',
  17. test = 'test.csv',
  18. format='csv',
  19. skip_header=True,
  20. fields = [('label', LABEL),('text', TEXT)])
  21. LOGGER.debug("准备导入词向量...")
  22. vectors = torchtext.vocab.Vectors(name = 'glove.6B.100d.txt',
  23. cache = 'data/')
  24. LOGGER.debug("准备构建词典...")
  25. TEXT.build_vocab(
  26. train,
  27. max_size=2000,
  28. min_freq=50,
  29. vectors=vectors,
  30. unk_init = torch.Tensor.normal_)
  31. LOGGER.debug("完成数据导入!")
  32. return train,valid, test, TEXT
get_dataset函数内部参数解读

data.Field(tokenize,fix_length)定义字段

  • tokenize=tokenize1 使用英文的分词器tokenize1函数。

  • fix_length=100 让每个文本分词后的长度均为100个词;不足100的,可以填充为100。超过100的,只保留100

data.TabularDataset.splits(train, validation,test, format,skip_header,fields)读取训练验证数据,可以一次性读取多个文件

  • train/validation/test 训练验证测试对应的csv文件名

  • skip_header=True 如果csv有抬头,设置为True可以避免pytorch将抬头当成一条记录

  • fields = [('label', LABEL), ('text', TEXT)] 定义字段的类型,注意fields要按照csv抬头中字段的顺序设置

torchtext.vocab.Vectors(name, cache)导入词向量数据文件

  • name= 'glove.6B.100d.txt' 从网上下载预训练好的词向量glove.6B.100d.txt文件(该文件有6B个词,每个词向量长度为100)

  • cache = 'data/' 文件夹位置。glove文件存放在data文件夹内

TEXT.buildvocab(maxsize,minfreq,unkinit) 构建词典,其中

  • max_size=2000 设定了词典最大词语数

  • min_freq=50设定了词典中的词语保证最少出现50次

  • unkinit=torch.Tensor.normal 词典中没有的词语对应的向量统一用torch.Tensor.normal_填充

六、分批次

数据集太大的话,一次性让机器读取容易导致内存崩溃。解决办法就是将大的数据集分成更小份的数据集,分批处理

  1. def split2batches(batch_size=32, device='cpu'):
  2. train, valid, test, TEXT = get_dataset() #datasets按顺序包含train、valid、test三部分
  3. LOGGER.debug("准备数据分批次...")
  4. train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits((train, valid, test),
  5. batch_size = batch_size,
  6. sort = False,
  7. device = device)
  8. LOGGER.debug("完成数据分批次!")
  9. return train_iterator, valid_iterator, test_iterator, TEXT
6.1参数解读

split2batches(batch_size=32, device=0)

  • batch_size 每批次最多加入多少条评论

  • device device='cpu'在CPU中运行,device='gpu' 在GPU中运行。普通电脑都只有CPU的 该函数返回的是BucketIterator对象

  1. train_iterator, valid_iterator, test_iterator, TEXT = split2batches()
  2. train_iterator

Run

<torchtext.data.iterator.BucketIterator at 0x12b0c7898>

查看train_iterator数据类型

type(train_iterator)
torchtext.data.iterator.BucketIterator
6.2BucketIterator对象

这里以trainiterator为例(validiterator, test_iterator都是相同的对象)。因为本例中数据有两个字段label和text,所以

640?wx_fmt=png

获取train_iterator的dataset

train_iterator.dataset
<torchtext.data.dataset.TabularDataset at 0x12e9c57b8>

获取train_iterator中的第8个对象

train_iterator.dataset.examples[7]
<torchtext.data.example.Example at 0x12a82dcf8>

获取train_iterator中的第8个对象的lebel字段的内容

train_iterator.dataset.examples[7].label
'ham'

获取train_iterator中的第8个对象的text字段的内容

train_iterator.dataset.examples[7].text
['were', 'trying', 'to', 'find', 'chinese', 'food', 'place', 'around', 'here']

总结

到这里我们已经学习了torchtext的常用知识。使用本代码要注意:

  • 我们假设数据集是csv文件,torchtext可以还可以处理tsv、json。但如果你想使用本代码,请先转为csv

  • 本教程的csv文件只有两个字段,label和text。如果你的数据有更多的字段,记得再代码中增加字段定义

  • 本教程默认场景是英文,且使用词向量。所以记得对应位置下载本教程的glove.6B.100d.txt。glove下载地址https://nlp.stanford.edu/projects/glove/

推荐阅读

【视频课程】Python爬虫与文本数据分析

VADER:社交网络文本情感分析库

如何用pandas对excel中的文本数据进行操作

如何用nbmerge合并多个notebook文件?   

自然语言处理库nltk、spacy安装及配置方法

国人开发的数据可视化神库 pyecharts

pandas_profiling:生成动态交互的数据探索报告

cufflinks: 让pandas拥有plotly的炫酷的动态可视化能力

使用Pandas、Jinja和WeasyPrint制作pdf报告

使用Pandas更好的做数据科学

使用Pandas更好的做数据科学(二)

少有人知的python数据科学库

folium:地图数据可视化库

学习编程遇到问题,该如何正确的提问?

如何用Google Colab高效的学习Python

flashtext:大规模文本数据清洗利器

640?wx_fmt=png

后台回复“20190820”,即可下载本教程代码。

写这篇torchtext文章废了我两天时间(各种bug,现在调试的可以在notebook中运行)。嘿嘿,目前不缺别的,就缺你的点赞评论转发^_^

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/862023
推荐阅读
相关标签