赞
踩
逻辑回归、svm、k近邻等算法只能处理数值型数据,而不能处理文字,因此有时候我们应对文字型数据进行编码,转化为数值型数据。在sklearn中,除了专用于处理文字的算法,其他算法输入数据时全部要求输入数组或矩阵,不能导入文字型数据。
当分类变量的取值之间有大小意义时,如【小学、初中、大学】,可以使用分类编码,将其编码为【0,1,2】。
当分类变量的取值之间没有大小意义时,如【蓝色、黄色、红色】,则使用独热编码。
一般来说,标签都使用分类编码。如【收入低于5k,收入高于5k】,可以使用sklearn.preprocessing.LabelEncoder转换为分类数值【0,1】。
from sklearn.preprocessing import LabelEncoder
#一步到位的写法
data.loc[:,-1] = LabelEncoder().fit_transform(data.loc[:,-1])
# 分部写法
y =
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。