赞
踩
在训练NLP模型时,我们要做的第一件事是对数据集进行预处理。torchtext提供了一系列非常方便的API供用户使用,完美囊括了旧有的sklearn, keras等工具包的功能。
本文主要介绍如何使用torchtext处理csv格式的数据。首先我们会介绍用到的类,然后给出示例代码进行说明。
Field类用于定义数据处理的规则,并利用规则构造字典(初始化一个Vocab类)。
它的构造函数为
Field(sequential=True, use_vocab=True, init_token=None, eos_token=None,
fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None,
lower=False, tokenize=None, tokenizer_language='en', include_lengths=False,
batch_first=False, pad_token='<pad>', unk_token='<unk>', pad_first=False,
truncate_first=False, stop_words=None, is_target=False)
这里解释几个重要参数
sequential 表示输入数据是否为序列,如果为False,则不对
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。