当前位置:   article > 正文

NLP数据预处理的一般方法

nlp数据预处理


一、前言

数据预处理一般包括如下几个步骤

  1. 读取数据【txt、csv】
  2. 拆分输入、输出数据
  3. 缺失数据处理【删除、插值】
  4. 字符串类型的数据处理【稀疏矩阵、embedding】
  5. 转成tensor张量

二、实现方法


import pandas as pd
import torch


'''
数据集:house_data.csv
任务:根据房间数和入户样式预测价格
'''

# 1.读取数据 -----------------------------
house_data_file = './house_data.csv'
data = pd.read_csv(house_data_file)
print(data)
#    NumRooms      Alley  Price
# 0       NaN       Pave  12500
# 1       2.0        NaN  10600
# 2       4.0  grassland  17800
# 3       NaN        NaN  14000

# 2.拆分输入、输出数据 ------------------------------------
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs)
#    NumRooms      Alley
# 0       NaN       Pave
# 1       2.0        NaN
# 2       4.0  grassland
# 3       NaN        NaN
print(outputs)
# 0    12500
# 1    10600
# 2    17800
# 3    14000
# Name: Price, dtype: int64

# 3.缺失数据取均值【对字符串格式的数据不生效】 ---------------
inputs = inputs.fillna(inputs.mean())
print(inputs)
#    NumRooms      Alley
# 0       3.0       Pave
# 1       2.0        NaN
# 2       4.0  grassland
# 3       3.0        NaN

# 将所有不同的字符串值转成单独一个分类 ----------------------------
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)   # 入户小径、入户草地、入户没有抓到数据的情况各分一类
#    NumRooms  Alley_Pave  Alley_grassland  Alley_nan
# 0       3.0           1                0          0
# 1       2.0           0                0          1
# 2       4.0           0                1          0
# 3       3.0           0                0          1

# 转成 pytorch 张量 -------------------------------------------------
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(x)
# tensor([[3., 1., 0., 0.],
#         [2., 0., 0., 1.],
#         [4., 0., 1., 0.],
#         [3., 0., 0., 1.]], dtype=torch.float64)
print(y)
# tensor([12500, 10600, 17800, 14000])

# 到此为止就可以送入模型训练了 -----

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/376610
推荐阅读
相关标签
  

闽ICP备14008679号