当前位置:   article > 正文

nlp文本分类-torchtext学习_nlp中的field

nlp中的field

1、torchtext安装

pip install https://github.com/pytorch/text/archive/master.zip 
  • 1

在这里插入图片描述

2、torchtext介绍
torchtext官方文档.
A Comprehensive Introduction to Torchtext.
Language modeling tutorial in torchtext

如果您曾经为NLP进行过深度学习项目,那么您会知道所有预处理都是多么痛苦和乏味。在开始训练模型之前,您必须:

  1. 从磁盘读取数据
  2. 标记文本
  3. 创建从单词到唯一整数的映射
  4. 将文本转换为整数列表
  5. 以您的深度学习框架所需的任何格式加载数据
  6. 填充文本,以使所有序列具有相同的长度,因此您可以批量处理它们

Torchtext 是一个使上述所有处理变得更加容易的库。尽管它仍然相对较新,但其便利的功能(尤其是在批处理和加载方面)使它成为值得学习和使用的库。
1.概述
Torchtext遵循以下基本公式将数据转换为神经网络的有效输入:在这里插入图片描述

Torchtext以文本文件,csv / tsv文件,json文件和目录的形式(截至目前)接收原始数据,并将其转换为数据集。数据集是经过预处理的数据块,具有各种字段,可以读取到内存中。它们是其他数据结构可以使用的处理数据的规范形式。

然后,Torchtext将数据集传递给迭代器。迭代器处理数字化,批处理,打包并将数据移至GPU。基本上,它完成了将数据传递到神经网络所需的所有繁重工作。

3、torchtext预处理流程

  • 定义Field:声明如何处理数据 定义
  • Dataset:得到数据集,此时数据集里每一个样本是一个 经过 Field声明的预处理 预处理后的 wordlist
  • 建立vocab:在这一步建立词汇表,词向量(word embeddings)
  • 构造迭代器:构造迭代器,用来分批次训练模型

3.1、定义Field------Field对象指定要如何处理某个字段.
Torchtext采用了一种声明式的方法来加载数据:你来告诉Torchtext你希望的数据是什么样子的,剩下的由torchtext来处理。
实现这种声明的是Field,Field确定了一种你想要怎么去处理数据。
data.Field(…)

	ID = Field(sequential=False, use_vocab&#
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/378387
    推荐阅读
    相关标签
      

    闽ICP备14008679号