赞
踩
ColumnTransformer 是数据处理Pipeline中的常用方法。正如其名,中心思想是依据其列名处理数据。
例如我们有两种数据。数据类型为numerical,字符串。预处理这些数据(Impute, One-Hot)步骤繁琐。如何封装以简便处理呢?
from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import OneHotEncoder numerical_transformer = SimpleImputer(strategy='constant') # Preprocessing for categorical data categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='most_frequent')), ('onehot', OneHotEncoder(handle_unknown='ignore')) ]) # Bundle preprocessing for numerical and categorical data preprocessor = ColumnTransformer( transformers=[ ('num', numerical_transformer, numerical_cols), ('cat', categorical_transformer, categorical_cols) ])
ColumnTransformer
的主要参数transformer为:a list consist of tuple.
该list包含了如何处理数据的tuple。
一个tuple有三种参数。
分别为:该处理的名字,处理方法,处理对象。
处理对象为列的索引,而处理的目标为这些列下的数据。
preprocessor
已封装完成,我们还可以进一步封装加入model功能。
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(n_estimators=100, random_state=0)
my_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
('model', model)
])
# Preprocessing of training data, fit model
my_pipeline.fit(X_train, y_train)
# Preprocessing of validation data, get predictions
preds = my_pipeline.predict(X_valid)
至此,my_pipepline已经有了预处理(numerical+One-Hot),model功能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。