Pytorch自然语言处理(2) 使用torchtext工具包进行csv格式的文本预处理_torchtext 构造csv

作者：喵喵爱编程 | 2024-08-01 06:07:05

踩

torchtext 构造csv

在训练NLP模型时，我们要做的第一件事是对数据集进行预处理。torchtext提供了一系列非常方便的API供用户使用，完美囊括了旧有的sklearn, keras等工具包的功能。 pytorch框架结构图
本文主要介绍如何使用torchtext处理csv格式的数据。首先我们会介绍用到的类，然后给出示例代码进行说明。

1. 创建Field类

Field类用于定义数据处理的规则，并利用规则构造字典（初始化一个Vocab类）。
它的构造函数为

 Field(sequential=True, use_vocab=True, init_token=None, eos_token=None, 
 fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None, 
 lower=False, tokenize=None, tokenizer_language='en', include_lengths=False, 
 batch_first=False, pad_token='<pad>', unk_token='<unk>', pad_first=False, 
 truncate_first=False, stop_words=None, is_target=False)
1
2
3
4
5

这里解释几个重要参数

sequential 表示输入数据是否为序列，如果为False，则不对

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/912652