当前位置:   article > 正文

Pytorch文本分类_和鲸 pytorch 文本分类·闯关关卡2 文本预处理

和鲸 pytorch 文本分类·闯关关卡2 文本预处理

1. 数据预处理

1.1 加载IMDB数据集

  为了方便理解,本博客对电影评论数据(IMDB)数据集进行分类,其中该数据集一共包括50000电影评论,每个评论的标签都被标注为正面的或负面的。而在Pytorch中的常用库torchext支持直接加载该数据集,并可将其划分为训练集和测试集两部分。

from torchtext import datasets
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)
  • 1
  • 2

  通过打印来简单看一下训练集和测试集的数据个数,如下所示,训练集和测试集数据个数相同:

print('Number of train examples: {}&
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/877765
    推荐阅读
    相关标签
      

    闽ICP备14008679号