当前位置:   article > 正文

数据预处理(三):字符型特征处理_特征工程 字符串类型处理方法

特征工程 字符串类型处理方法

字符型特征处理

一、介绍

1.原因

逻辑回归、svm、k近邻等算法只能处理数值型数据,而不能处理文字,因此有时候我们应对文字型数据进行编码,转化为数值型数据。在sklearn中,除了专用于处理文字的算法,其他算法输入数据时全部要求输入数组或矩阵,不能导入文字型数据。

2.两种编码方式

当分类变量的取值之间有大小意义时,如【小学、初中、大学】,可以使用分类编码,将其编码为【0,1,2】。
当分类变量的取值之间没有大小意义时,如【蓝色、黄色、红色】,则使用独热编码。

二、分类编码

1.标签的编码

一般来说,标签都使用分类编码。如【收入低于5k,收入高于5k】,可以使用sklearn.preprocessing.LabelEncoder转换为分类数值【0,1】。

from sklearn.preprocessing import LabelEncoder
#一步到位的写法
data.loc[:,-1] = LabelEncoder().fit_transform(data.loc[:,-1]) 

# 分部写法
y =
  • 1
  • 2
  • 3
  • 4
  • 5
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/988810
推荐阅读
相关标签
  

闽ICP备14008679号