当前位置:   article > 正文

Pytorch自然语言处理(2) 使用torchtext工具包进行csv格式的文本预处理_torchtext 构造csv

torchtext 构造csv

在训练NLP模型时,我们要做的第一件事是对数据集进行预处理。torchtext提供了一系列非常方便的API供用户使用,完美囊括了旧有的sklearn, keras等工具包的功能。pytorch框架结构图
本文主要介绍如何使用torchtext处理csv格式的数据。首先我们会介绍用到的类,然后给出示例代码进行说明。

1. 创建Field类

Field类用于定义数据处理的规则,并利用规则构造字典(初始化一个Vocab类)。
它的构造函数为

 Field(sequential=True, use_vocab=True, init_token=None, eos_token=None, 
 fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None, 
 lower=False, tokenize=None, tokenizer_language='en', include_lengths=False, 
 batch_first=False, pad_token='<pad>', unk_token='<unk>', pad_first=False, 
 truncate_first=False, stop_words=None, is_target=False)
  • 1
  • 2
  • 3
  • 4
  • 5

这里解释几个重要参数

  • sequential 表示输入数据是否为序列,如果为False,则不对

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/912652
推荐阅读
相关标签
  

闽ICP备14008679号