当前位置:   article > 正文

torchtext进行文本预处理_from torchtext.vocab import vectors

from torchtext.vocab import vectors

torchtext文本预处理学习链接

  1. # -*- coding: utf-8 -*-
  2. # @Time : 2020/2/25 11:18
  3. # @Author : liusen
  4. from torchtext import data
  5. from tqdm import tqdm
  6. import pandas as pd
  7. import numpy as np
  8. import random
  9. import torch
  10. from torchtext.vocab import Vectors
  11. import os
  12. import codecs
  13. import dill
  14. def split_data_train_dev():
  15. pass
  16. def x_tokenize(x):
  17. # 如果加载进来的是已经转成id的文本
  18. # 此处必须将字符串转换成整型
  19. # 否则必须将use_vocab设为True
  20. return list(x.strip())
  21. # print(x_tokenize("我是中国人"))
  22. train_path = '../data/train.csv'
  23. test_path = '../data/test_new.csv'
  24. TEXT = data.Field(sequential=True, tokenize=x_tokenize, use_vocab=True, lower=False)
  25. LABEL = data.Field(sequential=False, use_vocab=False)
  26. def get_one_hot(label, N):
  27. # size = list(label.size())
  28. # label = label.view(-1) # reshape 为向量
  29. ones = torch.sparse.torch.eye(N)
  30. ones = ones.index_select(0, torch.tensor(int(label))) # 用上面的办法转为换one hot
  31. # size.append(N) # 把类别输目添到size的尾后,准备reshape回原来的尺寸
  32. return ones
  33. class MyDataset(data.Dataset):
  34. def __init__(self, path, text_field, label_field, test=False, aug=Fal
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/378323
推荐阅读
相关标签
  

闽ICP备14008679号