赞
踩
这是一个经典问题,预测二元事件的结果。通俗地说,这意味着它要么发生了,要么没有发生。例如,你赢了或者没有赢,你通过了考试或者没有通过考试,你被接受或者没有被接受,你懂的。一个常见的商业应用是流失或客户保留。另一个流行的用例是医疗保健的死亡率或生存分析。二元事件创造了一个有趣的动态,因为我们知道,统计上,一个随机猜测应该达到50%的准确率,而不需要创建一个算法或编写一行代码。然而,就像自动纠正拼写技术一样,有时我们人类可以太聪明了,实际上表现不如硬币翻转。在这个内核中,我使用Kaggle的入门竞赛,泰坦尼克号:从灾难中学习机器学习,向读者介绍如何使用数据科学框架来战胜机遇。
当技术太聪明而超出我们的控制时会发生什么?
对于这个项目,问题陈述已经给出,我们需要开发一个算法来预测泰坦尼克号上乘客的生存结果。
…
项目概述:
泰坦尼克号的沉没是历史上最臭名昭著的船难之一。1912年4月15日,在她的首航中,泰坦尼克号与冰山相撞后沉没,导致2224名乘客和船员中的1502人死亡。这场轰动的悲剧震惊了国际社会,并促使出台更好的船舶安全规定。
造成如此多人员伤亡的原因之一是乘客和船员的救生艇不够。尽管在沉船中幸存涉及一定的运气成分,但某些人群比其他人更有可能幸存,比如妇女、儿童和上层阶级。
在这个挑战中,我们要求您完成对可能幸存的人群的分析。具体而言,我们要求您应用机器学习的工具来预测哪些乘客在这场悲剧中幸存下来。
实践技能
数据集也已经以测试和训练数据的形式给出,可以在Kaggle的泰坦尼克号:来自灾难的机器学习上找到。
由于步骤2已经为我们提供了黄金般的服务,所以步骤3也是如此。因此,数据整理中的常规流程,如数据架构、治理和提取,都不在范围内。因此,只有数据清理在范围内。
以下代码是用Python 3.x编写的。库提供了预先编写的功能,以执行必要的任务。这个想法是为什么要写十行代码,当你可以写一行呢。
# 加载所需的包 import sys # 访问系统参数的包 print("Python版本:{}". format(sys.version)) import pandas as pd # 数据处理和分析的包,类似于R的数据框架和SQL的功能 print("pandas版本:{}". format(pd.__version__)) import matplotlib # 科学和出版可视化的包 print("matplotlib版本:{}". format(matplotlib.__version__)) import numpy as np # 科学计算的基础包 print("NumPy版本:{}". format(np.__version__)) import scipy as sp # 科学计算和高级数学的包 print("SciPy版本:{}". format(sp.__version__)) import IPython from IPython import display # 在Jupyter notebook中漂亮地打印数据框 print("IPython版本:{}". format(IPython.__version__)) import sklearn # 机器学习算法的集合 print("scikit-learn版本:{}". format(sklearn.__version__)) # 其他库 import random import time # 忽略警告 import warnings warnings.filterwarnings('ignore') print('-'*25) # 输入数据文件在"../input/"目录中可用。 # 例如,运行以下代码(点击运行或按Shift+Enter)将列出输入目录中的文件 from subprocess import check_output print(check_output(["ls", "../input"]).decode("utf8")) # 将任何结果写入当前目录作为输出。
Python version: 3.6.3 |Anaconda custom (64-bit)| (default, Nov 20 2017, 20:41:42)
[GCC 7.2.0]
pandas version: 0.20.3
matplotlib version: 2.1.1
NumPy version: 1.13.0
SciPy version: 1.0.0
IPython version: 5.3.0
scikit-learn version: 0.19.1
-------------------------
gender_submission.csv
test.csv
train.csv
我们将使用流行的scikit-learn库来开发我们的机器学习算法。在sklearn中,算法被称为估计器,并在它们自己的类中实现。为了进行数据可视化,我们将使用matplotlib和seaborn库。以下是常见的加载类。
# 导入所需的库和模块 # 导入常用的模型算法 from sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_process from xgboost import XGBClassifier # 导入常用的模型辅助工具 from sklearn.preprocessing import OneHotEncoder, LabelEncoder from sklearn import feature_selection from sklearn import model_selection from sklearn import metrics # 导入可视化相关的库和模块 import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.pylab as pylab import seaborn as sns from pandas.tools.plotting import scatter_matrix # 配置可视化默认设置 # %matplotlib inline 表示在Jupyter Notebook中显示图形 %matplotlib inline mpl.style.use('ggplot') # 设置图形样式为ggplot风格 sns.set_style('white') # 设置seaborn图形样式为白色背景 pylab.rcParams['figure.figsize'] = 12, 8 # 设置图形大小为12x8
这是相识和问候的步骤。首先通过名字来了解你的数据,并对其进行一些了解。它是什么样子的(数据类型和值),它是如何运作的(自变量/特征变量),它的目标是什么(因变量/目标变量)。可以把它看作是第一次约会,在你跳进并开始在卧室里戳它之前。
在开始这一步之前,我们首先导入我们的数据。接下来,我们使用info()和sample()函数,以获取变量数据类型(即定性 vs 定量)的快速和粗略的概述。点击这里查看源数据字典。
# 导入数据
data_raw = pd.read_csv('../input/train.csv') # 从文件中导入数据
# 导入验证数据
data_val = pd.read_csv('../input/test.csv') # 从文件中导入验证数据
# 创建数据副本
data1 = data_raw.copy(deep=True) # 使用深拷贝创建数据副本
# 将数据副本放入数据清洗器中
data_cleaner = [data1, data_val] # 将数据副本放入数据清洗器列表中
# 预览数据
print(data_raw.info()) # 打印数据的基本信息
data_raw.sample(10) # 随机抽样并打印10条数据样本
<class 'pandas.core.frame.DataFrame'> RangeIndex: 891 entries, 0 to 890 Data columns (total 12 columns): PassengerId 891 non-null int64 Survived 891 non-null int64 Pclass 891 non-null int64 Name 891 non-null object Sex 891 non-null object Age 714 non-null float64 SibSp 891 non-null int64 Parch 891 non-null int64 Ticket 891 non-null object Fare 891 non-null float64 Cabin 204 non-null object Embarked 889 non-null object dtypes: float64(2), int64(5), object(5) memory usage: 83.6+ KB None
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
855 | 856 | 1 | 3 | Aks, Mrs. Sam (Leah Rosen) | female | 18.0 | 0 | 1 | 392091 | 9.3500 | NaN | S |
701 | 702 | 1 | 1 | Silverthorne, Mr. Spencer Victor | male | 35.0 | 0 | 0 | PC 17475 | 26.2875 | E24 | S |
180 | 181 | 0 | 3 | Sage, Miss. Constance Gladys | female | NaN | 8 | 2 | CA. 2343 | 69.5500 | NaN | S |
409 | 410 | 0 | 3 | Lefebre, Miss. Ida | female | NaN | 3 | 1 | 4133 | 25.4667 | NaN | S |
776 | 777 | 0 | 3 | Tobin, Mr. Roger | male | NaN | 0 | 0 | 383121 | 7.7500 | F38 | Q |
404 | 405 | 0 | 3 | Oreskovic, Miss. Marija | female | 20.0 | 0 | 0 | 315096 | 8.6625 | NaN | S |
49 | 50 | 0 | 3 | Arnold-Franchi, Mrs. Josef (Josefine Franchi) | female | 18.0 | 1 | 0 | 349237 | 17.8000 | NaN | S |
836 | 837 | 0 | 3 | Pasic, Mr. Jakob | male | 21.0 | 0 | 0 | 315097 | 8.6625 | NaN | S |
619 | 620 | 0 | 2 | Gavey, Mr. Lawrence | male | 26.0 | 0 | 0 | 31028 | 10.5000 | NaN | S |
890 | 891 | 0 | 3 | Dooley, Mr. Patrick | male | 32.0 | 0 | 0 | 370376 | 7.7500 | NaN | Q |
在这个阶段,我们将通过以下四个步骤来清洗我们的数据:1)修正异常值和离群值,2)补全缺失信息,3)创建新的特征进行分析,4)将字段转换为正确的格式进行计算和展示。
# 打印训练数据中含有空值的列
print('Train columns with null values:\n', data1.isnull().sum())
# 打印分隔线
print("-"*10)
# 打印测试/验证数据中含有空值的列
print('Test/Validation columns with null values:\n', data_val.isnull().sum())
# 打印分隔线
print("-"*10)
# 对原始数据进行描述性统计,包括所有列的统计信息
data_raw.describe(include='all')
Train columns with null values: PassengerId 0 Survived 0 Pclass 0 Name 0 Sex 0 Age 177 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 687 Embarked 2 dtype: int64 ---------- Test/Validation columns with null values: PassengerId 0 Pclass 0 Name 0 Sex 0 Age 86 SibSp 0 Parch 0 Ticket 0 Fare 1 Cabin 327 Embarked 0 dtype: int64 ----------
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 891.000000 | 891.000000 | 891.000000 | 891 | 891 | 714.000000 | 891.000000 | 891.000000 | 891 | 891.000000 | 204 | 889 |
unique | NaN | NaN | NaN | 891 | 2 | NaN | NaN | NaN | 681 | NaN | 147 | 3 |
top | NaN | NaN | NaN | Lindahl, Miss. Agda Thorilda Viktoria | male | NaN | NaN | NaN | 1601 | NaN | C23 C25 C27 | S |
freq | NaN | NaN | NaN | 1 | 577 | NaN | NaN | NaN | 7 | NaN | 4 | 644 |
mean | 446.000000 | 0.383838 | 2.308642 | NaN | NaN | 29.699118 | 0.523008 | 0.381594 | NaN | 32.204208 | NaN | NaN |
std | 257.353842 | 0.486592 | 0.836071 | NaN | NaN | 14.526497 | 1.102743 | 0.806057 | NaN | 49.693429 | NaN | NaN |
min | 1.000000 | 0.000000 | 1.000000 | NaN | NaN | 0.420000 | 0.000000 | 0.000000 | NaN | 0.000000 | NaN | NaN |
25% | 223.500000 | 0.000000 | 2.000000 | NaN | NaN | 20.125000 | 0.000000 | 0.000000 | NaN | 7.910400 | NaN | NaN |
50% | 446.000000 | 0.000000 | 3.000000 | NaN | NaN | 28.000000 | 0.000000 | 0.000000 | NaN | 14.454200 | NaN | NaN |
75% | 668.500000 | 1.000000 | 3.000000 | NaN | NaN | 38.000000 | 1.000000 | 0.000000 | NaN | 31.000000 | NaN | NaN |
max | 891.000000 | 1.000000 | 3.000000 | NaN | NaN | 80.000000 | 8.000000 | 6.000000 | NaN | 512.329200 | NaN | NaN |
现在我们知道要清洗什么了,让我们执行我们的代码。
开发者文档:
###COMPLETING: complete or delete missing values in train and test/validation dataset # 对训练集和测试/验证集中的缺失值进行填充或删除 for dataset in data_cleaner: # 使用中位数填充缺失的年龄值 dataset['Age'].fillna(dataset['Age'].median(), inplace = True) # 使用众数填充缺失的登船港口值 dataset['Embarked'].fillna(dataset['Embarked'].mode()[0], inplace = True) # 使用中位数填充缺失的票价值 dataset['Fare'].fillna(dataset['Fare'].median(), inplace = True) # 在训练集中删除客舱、乘客ID和票号这些特征/列 drop_column = ['PassengerId','Cabin', 'Ticket'] data1.drop(drop_column, axis=1, inplace = True) # 打印训练集中的缺失值总数 print(data1.isnull().sum()) print("-"*10) # 打印测试/验证集中的缺失值总数 print(data_val.isnull().sum())
Survived 0 Pclass 0 Name 0 Sex 0 Age 0 SibSp 0 Parch 0 Fare 0 Embarked 0 dtype: int64 ---------- PassengerId 0 Pclass 0 Name 0 Sex 0 Age 0 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 327 Embarked 0 dtype: int64
###创建:为训练集和测试/验证集进行特征工程 for dataset in data_cleaner: #离散变量 dataset['FamilySize'] = dataset ['SibSp'] + dataset['Parch'] + 1 #计算家庭成员数量 dataset['IsAlone'] = 1 #初始化为独自一人(是) dataset['IsAlone'].loc[dataset['FamilySize'] > 1] = 0 #如果家庭成员数量大于1,则更新为不是独自一人(否) #快速而简单的代码,从姓名中分离出称号:http://www.pythonforbeginners.com/dictionary/python-split dataset['Title'] = dataset['Name'].str.split(", ", expand=True)[1].str.split(".", expand=True)[0] #从姓名中提取称号 #连续变量分箱;qcut与cut的区别:https://stackoverflow.com/questions/30211923/what-is-the-difference-between-pandas-qcut-and-pandas-cut #使用qcut对票价进行分箱:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.html dataset['FareBin'] = pd.qcut(dataset['Fare'], 4) #对票价进行分箱 #使用cut对年龄进行分箱:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html dataset['AgeBin'] = pd.cut(dataset['Age'].astype(int), 5) #对年龄进行分箱 #清理罕见的称号 #print(data1['Title'].value_counts()) stat_min = 10 #虽然小是任意的,但我们将使用统计学中常见的最小值:http://nicholasjjackson.com/2012/03/08/sample-size-is-10-a-magic-number/ title_names = (data1['Title'].value_counts() < stat_min) #这将创建一个以称号为索引的真假序列 #apply和lambda函数是一种快速而简单的代码,可以用较少的行数找到并替换:https://community.modeanalytics.com/python/tutorial/pandas-groupby-and-python-lambda-functions/ data1['Title'] = data1['Title'].apply(lambda x: 'Misc' if title_names.loc[x] == True else x) #如果称号在title_names中为True,则替换为"Misc" print(data1['Title'].value_counts()) print("-"*10) #再次预览数据 data1.info() data_val.info() data1.sample(10)
Mr 517 Miss 182 Mrs 125 Master 40 Misc 27 Name: Title, dtype: int64 ---------- <class 'pandas.core.frame.DataFrame'> RangeIndex: 891 entries, 0 to 890 Data columns (total 14 columns): Survived 891 non-null int64 Pclass 891 non-null int64 Name 891 non-null object Sex 891 non-null object Age 891 non-null float64 SibSp 891 non-null int64 Parch 891 non-null int64 Fare 891 non-null float64 Embarked 891 non-null object FamilySize 891 non-null int64 IsAlone 891 non-null int64 Title 891 non-null object FareBin 891 non-null category AgeBin 891 non-null category dtypes: category(2), float64(2), int64(6), object(4) memory usage: 85.5+ KB <class 'pandas.core.frame.DataFrame'> RangeIndex: 418 entries, 0 to 417 Data columns (total 16 columns): PassengerId 418 non-null int64 Pclass 418 non-null int64 Name 418 non-null object Sex 418 non-null object Age 418 non-null float64 SibSp 418 non-null int64 Parch 418 non-null int64 Ticket 418 non-null object Fare 418 non-null float64 Cabin 91 non-null object Embarked 418 non-null object FamilySize 418 non-null int64 IsAlone 418 non-null int64 Title 418 non-null object FareBin 418 non-null category AgeBin 418 non-null category dtypes: category(2), float64(2), int64(6), object(6) memory usage: 46.8+ KB
Survived | Pclass | Name | Sex | Age | SibSp | Parch | Fare | Embarked | FamilySize | IsAlone | Title | FareBin | AgeBin | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
651 | 1 | 2 | Doling, Miss. Elsie | female | 18.0 | 0 | 1 | 23.0000 | S | 2 | 0 | Miss | (14.454, 31.0] | (16.0, 32.0] |
561 | 0 | 3 | Sivic, Mr. Husein | male | 40.0 | 0 | 0 | 7.8958 | S | 1 | 1 | Mr | (-0.001, 7.91] | (32.0, 48.0] |
737 | 1 | 1 | Lesurer, Mr. Gustave J | male | 35.0 | 0 | 0 | 512.3292 | C | 1 | 1 | Mr | (31.0, 512.329] | (32.0, 48.0] |
368 | 1 | 3 | Jermyn, Miss. Annie | female | 28.0 | 0 | 0 | 7.7500 | Q | 1 | 1 | Miss | (-0.001, 7.91] | (16.0, 32.0] |
837 | 0 | 3 | Sirota, Mr. Maurice | male | 28.0 | 0 | 0 | 8.0500 | S | 1 | 1 | Mr | (7.91, 14.454] | (16.0, 32.0] |
299 | 1 | 1 | Baxter, Mrs. James (Helene DeLaudeniere Chaput) | female | 50.0 | 0 | 1 | 247.5208 | C | 2 | 0 | Mrs | (31.0, 512.329] | (48.0, 64.0] |
273 | 0 | 1 | Natsch, Mr. Charles H | male | 37.0 | 0 | 1 | 29.7000 | C | 2 | 0 | Mr | (14.454, 31.0] | (32.0, 48.0] |
117 | 0 | 2 | Turpin, Mr. William John Robert | male | 29.0 | 1 | 0 | 21.0000 | S | 2 | 0 | Mr | (14.454, 31.0] | (16.0, 32.0] |
810 | 0 | 3 | Alexander, Mr. William | male | 26.0 | 0 | 0 | 7.8875 | S | 1 | 1 | Mr | (-0.001, 7.91] | (16.0, 32.0] |
234 | 0 | 2 | Leyson, Mr. Robert William Norman | male | 24.0 | 0 | 0 | 10.5000 | S | 1 | 1 | Mr | (7.91, 14.454] | (16.0, 32.0] |
我们将把分类数据转换为虚拟变量以进行数学分析。有多种编码分类变量的方法;我们将使用sklearn和pandas函数。
在这一步中,我们还将为数据建模定义我们的x(自变量/特征/解释变量/预测变量等)和y(因变量/目标变量/结果变量等)变量。
开发者文档:
#CONVERT: 使用Label Encoder将对象转换为类别,用于训练集和测试/验证集的数据 #对分类数据进行编码 label = LabelEncoder() for dataset in data_cleaner: dataset['Sex_Code'] = label.fit_transform(dataset['Sex']) #将'Sex'列中的性别数据转换为数字编码 dataset['Embarked_Code'] = label.fit_transform(dataset['Embarked']) #将'Embarked'列中的登船港口数据转换为数字编码 dataset['Title_Code'] = label.fit_transform(dataset['Title']) #将'Title'列中的称号数据转换为数字编码 dataset['AgeBin_Code'] = label.fit_transform(dataset['AgeBin']) #将'AgeBin'列中的年龄段数据转换为数字编码 dataset['FareBin_Code'] = label.fit_transform(dataset['FareBin']) #将'FareBin'列中的票价段数据转换为数字编码 #define y变量,即目标/结果 Target = ['Survived'] #define x变量,即原始特征,用于特征选择 data1_x = ['Sex','Pclass', 'Embarked', 'Title','SibSp', 'Parch', 'Age', 'Fare', 'FamilySize', 'IsAlone'] #用于图表的漂亮名称/值 data1_x_calc = ['Sex_Code','Pclass', 'Embarked_Code', 'Title_Code','SibSp', 'Parch', 'Age', 'Fare'] #用于算法计算的编码 data1_xy = Target + data1_x print('Original X Y: ', data1_xy, '\n') #define x变量,即带有分箱特征的原始特征,以删除连续变量 data1_x_bin = ['Sex_Code','Pclass', 'Embarked_Code', 'Title_Code', 'FamilySize', 'AgeBin_Code', 'FareBin_Code'] data1_xy_bin = Target + data1_x_bin print('Bin X Y: ', data1_xy_bin, '\n') #define x和y变量,即原始虚拟特征 data1_dummy = pd.get_dummies(data1[data1_x]) #对data1中的data1_x进行独热编码 data1_x_dummy = data1_dummy.columns.tolist() #获取独热编码后的列名列表 data1_xy_dummy = Target + data1_x_dummy print('Dummy X Y: ', data1_xy_dummy, '\n') data1_dummy.head() #显示独热编码后的数据的前几行
Original X Y: ['Survived', 'Sex', 'Pclass', 'Embarked', 'Title', 'SibSp', 'Parch', 'Age', 'Fare', 'FamilySize', 'IsAlone']
Bin X Y: ['Survived', 'Sex_Code', 'Pclass', 'Embarked_Code', 'Title_Code', 'FamilySize', 'AgeBin_Code', 'FareBin_Code']
Dummy X Y: ['Survived', 'Pclass', 'SibSp', 'Parch', 'Age', 'Fare', 'FamilySize', 'IsAlone', 'Sex_female', 'Sex_male', 'Embarked_C', 'Embarked_Q', 'Embarked_S', 'Title_Master', 'Title_Misc', 'Title_Miss', 'Title_Mr', 'Title_Mrs']
Pclass | SibSp | Parch | Age | Fare | FamilySize | IsAlone | Sex_female | Sex_male | Embarked_C | Embarked_Q | Embarked_S | Title_Master | Title_Misc | Title_Miss | Title_Mr | Title_Mrs | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 3 | 1 | 0 | 22.0 | 7.2500 | 2 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 |
1 | 1 | 1 | 0 | 38.0 | 71.2833 | 2 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
2 | 3 | 0 | 0 | 26.0 | 7.9250 | 1 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 |
3 | 1 | 1 | 0 | 35.0 | 53.1000 | 2 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
4 | 3 | 0 | 0 | 35.0 | 8.0500 | 1 | 1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 |
既然我们已经清洁了我们的数据,让我们进行一次折扣的双重检查!
# 打印训练数据中含有空值的列 print('Train columns with null values: \n', data1.isnull().sum()) # 打印分隔线 print("-"*10) # 打印训练数据的信息 print (data1.info()) # 打印分隔线 print("-"*10) # 打印测试/验证数据中含有空值的列 print('Test/Validation columns with null values: \n', data_val.isnull().sum()) # 打印分隔线 print("-"*10) # 打印测试/验证数据的信息 print (data_val.info()) # 打印分隔线 print("-"*10) # 打印数据的统计描述信息,包括所有列 data_raw.describe(include = 'all')
Train columns with null values: Survived 0 Pclass 0 Name 0 Sex 0 Age 0 SibSp 0 Parch 0 Fare 0 Embarked 0 FamilySize 0 IsAlone 0 Title 0 FareBin 0 AgeBin 0 Sex_Code 0 Embarked_Code 0 Title_Code 0 AgeBin_Code 0 FareBin_Code 0 dtype: int64 ---------- <class 'pandas.core.frame.DataFrame'> RangeIndex: 891 entries, 0 to 890 Data columns (total 19 columns): Survived 891 non-null int64 Pclass 891 non-null int64 Name 891 non-null object Sex 891 non-null object Age 891 non-null float64 SibSp 891 non-null int64 Parch 891 non-null int64 Fare 891 non-null float64 Embarked 891 non-null object FamilySize 891 non-null int64 IsAlone 891 non-null int64 Title 891 non-null object FareBin 891 non-null category AgeBin 891 non-null category Sex_Code 891 non-null int64 Embarked_Code 891 non-null int64 Title_Code 891 non-null int64 AgeBin_Code 891 non-null int64 FareBin_Code 891 non-null int64 dtypes: category(2), float64(2), int64(11), object(4) memory usage: 120.3+ KB None ---------- Test/Validation columns with null values: PassengerId 0 Pclass 0 Name 0 Sex 0 Age 0 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 327 Embarked 0 FamilySize 0 IsAlone 0 Title 0 FareBin 0 AgeBin 0 Sex_Code 0 Embarked_Code 0 Title_Code 0 AgeBin_Code 0 FareBin_Code 0 dtype: int64 ---------- <class 'pandas.core.frame.DataFrame'> RangeIndex: 418 entries, 0 to 417 Data columns (total 21 columns): PassengerId 418 non-null int64 Pclass 418 non-null int64 Name 418 non-null object Sex 418 non-null object Age 418 non-null float64 SibSp 418 non-null int64 Parch 418 non-null int64 Ticket 418 non-null object Fare 418 non-null float64 Cabin 91 non-null object Embarked 418 non-null object FamilySize 418 non-null int64 IsAlone 418 non-null int64 Title 418 non-null object FareBin 418 non-null category AgeBin 418 non-null category Sex_Code 418 non-null int64 Embarked_Code 418 non-null int64 Title_Code 418 non-null int64 AgeBin_Code 418 non-null int64 FareBin_Code 418 non-null int64 dtypes: category(2), float64(2), int64(11), object(6) memory usage: 63.1+ KB None ----------
PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 891.000000 | 891.000000 | 891.000000 | 891 | 891 | 714.000000 | 891.000000 | 891.000000 | 891 | 891.000000 | 204 | 889 |
unique | NaN | NaN | NaN | 891 | 2 | NaN | NaN | NaN | 681 | NaN | 147 | 3 |
top | NaN | NaN | NaN | Lindahl, Miss. Agda Thorilda Viktoria | male | NaN | NaN | NaN | 1601 | NaN | C23 C25 C27 | S |
freq | NaN | NaN | NaN | 1 | 577 | NaN | NaN | NaN | 7 | NaN | 4 | 644 |
mean | 446.000000 | 0.383838 | 2.308642 | NaN | NaN | 29.699118 | 0.523008 | 0.381594 | NaN | 32.204208 | NaN | NaN |
std | 257.353842 | 0.486592 | 0.836071 | NaN | NaN | 14.526497 | 1.102743 | 0.806057 | NaN | 49.693429 | NaN | NaN |
min | 1.000000 | 0.000000 | 1.000000 | NaN | NaN | 0.420000 | 0.000000 | 0.000000 | NaN | 0.000000 | NaN | NaN |
25% | 223.500000 | 0.000000 | 2.000000 | NaN | NaN | 20.125000 | 0.000000 | 0.000000 | NaN | 7.910400 | NaN | NaN |
50% | 446.000000 | 0.000000 | 3.000000 | NaN | NaN | 28.000000 | 0.000000 | 0.000000 | NaN | 14.454200 | NaN | NaN |
75% | 668.500000 | 1.000000 | 3.000000 | NaN | NaN | 38.000000 | 1.000000 | 0.000000 | NaN | 31.000000 | NaN | NaN |
max | 891.000000 | 1.000000 | 3.000000 | NaN | NaN | 80.000000 | 8.000000 | 6.000000 | NaN | 512.329200 | NaN | NaN |
如前所述,提供的测试文件实际上是竞赛提交的验证数据。因此,我们将使用sklearn函数将训练数据分为两个数据集;75/25的比例。这很重要,这样我们就不会过度拟合我们的模型。也就是说,算法对于给定的子集非常特定,不能准确地推广到同一数据集的另一个子集。重要的是,我们的算法没有看到我们将用于测试的子集,这样它就不会通过记忆答案来“作弊”。我们将使用sklearn的 train_test_split函数。在后面的章节中,我们还将使用sklearn的交叉验证函数,将我们的数据集分为训练和测试集,以进行数据建模比较。
# 导入模块 # model_selection是一个模块,用于拆分训练集和测试集 # train_test_split是model_selection模块中的一个函数,用于拆分数据集 # data1是一个数据集,包含特征和目标变量 # data1_x_calc是data1中的特征变量 # Target是data1中的目标变量 # 使用train_test_split函数将data1中的特征变量data1_x_calc和目标变量Target拆分为训练集和测试集 # random_state参数用于控制随机数生成器的种子,保证每次拆分的结果一致 # 拆分后的训练集特征变量赋值给train1_x,测试集特征变量赋值给test1_x # 拆分后的训练集目标变量赋值给train1_y,测试集目标变量赋值给test1_y train1_x, test1_x, train1_y, test1_y = model_selection.train_test_split(data1[data1_x_calc], data1[Target], random_state=0) # 使用train_test_split函数将data1中的特征变量data1_x_bin和目标变量Target拆分为训练集和测试集 # random_state参数用于控制随机数生成器的种子,保证每次拆分的结果一致 # 拆分后的训练集特征变量赋值给train1_x_bin,测试集特征变量赋值给test1_x_bin # 拆分后的训练集目标变量赋值给train1_y_bin,测试集目标变量赋值给test1_y_bin train1_x_bin, test1_x_bin, train1_y_bin, test1_y_bin = model_selection.train_test_split(data1[data1_x_bin], data1[Target], random_state=0) # 使用train_test_split函数将data1_dummy中的特征变量data1_x_dummy和目标变量Target拆分为训练集和测试集 # random_state参数用于控制随机数生成器的种子,保证每次拆分的结果一致 # 拆分后的训练集特征变量赋值给train1_x_dummy,测试集特征变量赋值给test1_x_dummy # 拆分后的训练集目标变量赋值给train1_y_dummy,测试集目标变量赋值给test1_y_dummy train1_x_dummy, test1_x_dummy, train1_y_dummy, test1_y_dummy = model_selection.train_test_split(data1_dummy[data1_x_dummy], data1[Target], random_state=0) # 打印data1的形状,即数据集的行数和列数 print("Data1 Shape: {}".format(data1.shape)) # 打印train1_x的形状,即训练集特征变量的行数和列数 print("Train1 Shape: {}".format(train1_x.shape)) # 打印test1_x的形状,即测试集特征变量的行数和列数 print("Test1 Shape: {}".format(test1_x.shape)) # 打印train1_x_bin的前几行数据 train1_x_bin.head()
Data1 Shape: (891, 19)
Train1 Shape: (668, 8)
Test1 Shape: (223, 8)
Sex_Code | Pclass | Embarked_Code | Title_Code | FamilySize | AgeBin_Code | FareBin_Code | |
---|---|---|---|---|---|---|---|
105 | 1 | 3 | 2 | 3 | 1 | 1 | 0 |
68 | 0 | 3 | 2 | 2 | 7 | 1 | 1 |
253 | 1 | 3 | 2 | 3 | 2 | 1 | 2 |
320 | 1 | 3 | 2 | 3 | 1 | 1 | 0 |
706 | 0 | 2 | 2 | 4 | 1 | 2 | 1 |
现在我们的数据已经清洗完毕,我们将使用描述性和图形统计方法来描述和总结我们的变量。在这个阶段,您将发现自己正在对特征进行分类,并确定它们与目标变量以及彼此之间的相关性。
# 离散变量与生存率的相关性 # 使用groupby函数进行分组,类似于透视表操作 for x in data1_x: # 如果变量的数据类型不是float64 if data1[x].dtype != 'float64' : # 打印输出相关性信息 print('Survival Correlation by:', x) # 使用groupby函数按照变量x进行分组,并计算生存率的平均值 print(data1[[x, Target[0]]].groupby(x, as_index=False).mean()) # 打印分隔线 print('-'*10, '\n') # 使用crosstab函数进行交叉表操作 # 交叉表用于统计两个或多个变量之间的频数分布关系 print(pd.crosstab(data1['Title'],data1[Target[0]]))
Survival Correlation by: Sex Sex Survived 0 female 0.742038 1 male 0.188908 ---------- Survival Correlation by: Pclass Pclass Survived 0 1 0.629630 1 2 0.472826 2 3 0.242363 ---------- Survival Correlation by: Embarked Embarked Survived 0 C 0.553571 1 Q 0.389610 2 S 0.339009 ---------- Survival Correlation by: Title Title Survived 0 Master 0.575000 1 Misc 0.444444 2 Miss 0.697802 3 Mr 0.156673 4 Mrs 0.792000 ---------- Survival Correlation by: SibSp SibSp Survived 0 0 0.345395 1 1 0.535885 2 2 0.464286 3 3 0.250000 4 4 0.166667 5 5 0.000000 6 8 0.000000 ---------- Survival Correlation by: Parch Parch Survived 0 0 0.343658 1 1 0.550847 2 2 0.500000 3 3 0.600000 4 4 0.000000 5 5 0.200000 6 6 0.000000 ---------- Survival Correlation by: FamilySize FamilySize Survived 0 1 0.303538 1 2 0.552795 2 3 0.578431 3 4 0.724138 4 5 0.200000 5 6 0.136364 6 7 0.333333 7 8 0.000000 8 11 0.000000 ---------- Survival Correlation by: IsAlone IsAlone Survived 0 0 0.505650 1 1 0.303538 ---------- Survived 0 1 Title Master 17 23 Misc 15 12 Miss 55 127 Mr 436 81 Mrs 26 99
# 导入matplotlib.pyplot库,用于绘制图形 import matplotlib.pyplot as plt # 设置图形的大小为16x12 plt.figure(figsize=[16,12]) # 在第一个子图中绘制箱线图 plt.subplot(231) plt.boxplot(x=data1['Fare'], showmeans = True, meanline = True) plt.title('Fare Boxplot') # 设置子图标题 plt.ylabel('Fare ($)') # 设置y轴标签 # 在第二个子图中绘制箱线图 plt.subplot(232) plt.boxplot(data1['Age'], showmeans = True, meanline = True) plt.title('Age Boxplot') plt.ylabel('Age (Years)') # 在第三个子图中绘制箱线图 plt.subplot(233) plt.boxplot(data1['FamilySize'], showmeans = True, meanline = True) plt.title('Family Size Boxplot') plt.ylabel('Family Size (#)') # 在第四个子图中绘制直方图 plt.subplot(234) plt.hist(x = [data1[data1['Survived']==1]['Fare'], data1[data1['Survived']==0]['Fare']], stacked=True, color = ['g','r'],label = ['Survived','Dead']) plt.title('Fare Histogram by Survival') plt.xlabel('Fare ($)') plt.ylabel('# of Passengers') plt.legend() # 在第五个子图中绘制直方图 plt.subplot(235) plt.hist(x = [data1[data1['Survived']==1]['Age'], data1[data1['Survived']==0]['Age']], stacked=True, color = ['g','r'],label = ['Survived','Dead']) plt.title('Age Histogram by Survival') plt.xlabel('Age (Years)') plt.ylabel('# of Passengers') plt.legend() # 在第六个子图中绘制直方图 plt.subplot(236) plt.hist(x = [data1[data1['Survived']==1]['FamilySize'], data1[data1['Survived']==0]['FamilySize']], stacked=True, color = ['g','r'],label = ['Survived','Dead']) plt.title('Family Size Histogram by Survival') plt.xlabel('Family Size (#)') plt.ylabel('# of Passengers') plt.legend()
<matplotlib.legend.Legend at 0x7f57f3087860>
# 使用seaborn图形进行多变量比较:https://seaborn.pydata.org/api.html # 创建一个2行3列的图形,大小为16x12 fig, saxis = plt.subplots(2, 3,figsize=(16,12)) # 绘制柱状图,横轴为'Embarked',纵轴为'Survived',数据来源为data1,绘制在saxis[0,0]位置 sns.barplot(x = 'Embarked', y = 'Survived', data=data1, ax = saxis[0,0]) # 绘制柱状图,横轴为'Pclass',纵轴为'Survived',指定顺序为[1,2,3],数据来源为data1,绘制在saxis[0,1]位置 sns.barplot(x = 'Pclass', y = 'Survived', order=[1,2,3], data=data1, ax = saxis[0,1]) # 绘制柱状图,横轴为'IsAlone',纵轴为'Survived',指定顺序为[1,0],数据来源为data1,绘制在saxis[0,2]位置 sns.barplot(x = 'IsAlone', y = 'Survived', order=[1,0], data=data1, ax = saxis[0,2]) # 绘制点图,横轴为'FareBin',纵轴为'Survived',数据来源为data1,绘制在saxis[1,0]位置 sns.pointplot(x = 'FareBin', y = 'Survived', data=data1, ax = saxis[1,0]) # 绘制点图,横轴为'AgeBin',纵轴为'Survived',数据来源为data1,绘制在saxis[1,1]位置 sns.pointplot(x = 'AgeBin', y = 'Survived', data=data1, ax = saxis[1,1]) # 绘制点图,横轴为'FamilySize',纵轴为'Survived',数据来源为data1,绘制在saxis[1,2]位置 sns.pointplot(x = 'FamilySize', y = 'Survived', data=data1, ax = saxis[1,2])
<matplotlib.axes._subplots.AxesSubplot at 0x7f57f2f11080>
# 导入必要的库 import matplotlib.pyplot as plt import seaborn as sns # 创建一个包含3个子图的图表,大小为14x12 fig, (axis1, axis2, axis3) = plt.subplots(1, 3, figsize=(14, 12)) # 在第一个子图上绘制箱线图,比较Pclass(船舱等级)和Fare(票价)与Survived(是否生存)之间的关系 sns.boxplot(x='Pclass', y='Fare', hue='Survived', data=data1, ax=axis1) axis1.set_title('Pclass vs Fare Survival Comparison') # 设置第一个子图的标题 # 在第二个子图上绘制小提琴图,比较Pclass(船舱等级)和Age(年龄)与Survived(是否生存)之间的关系 sns.violinplot(x='Pclass', y='Age', hue='Survived', data=data1, split=True, ax=axis2) axis2.set_title('Pclass vs Age Survival Comparison') # 设置第二个子图的标题 # 在第三个子图上绘制箱线图,比较Pclass(船舱等级)和FamilySize(家庭大小)与Survived(是否生存)之间的关系 sns.boxplot(x='Pclass', y='FamilySize', hue='Survived', data=data1, ax=axis3) axis3.set_title('Pclass vs Family Size Survival Comparison') # 设置第三个子图的标题
Text(0.5,1,'Pclass vs Family Size Survival Comparison')
# 导入必要的库 import seaborn as sns import matplotlib.pyplot as plt # 创建一个包含3个子图的图形,大小为14x12 fig, qaxis = plt.subplots(1, 3, figsize=(14, 12)) # 在第一个子图上绘制柱状图,比较性别和登船港口对生存率的影响 sns.barplot(x='Sex', y='Survived', hue='Embarked', data=data1, ax=qaxis[0]) qaxis[0].set_title('Sex vs Embarked Survival Comparison') # 在第二个子图上绘制柱状图,比较性别和客舱等级对生存率的影响 sns.barplot(x='Sex', y='Survived', hue='Pclass', data=data1, ax=qaxis[1]) qaxis[1].set_title('Sex vs Pclass Survival Comparison') # 在第三个子图上绘制柱状图,比较性别和是否独自一人对生存率的影响 sns.barplot(x='Sex', y='Survived', hue='IsAlone', data=data1, ax=qaxis[2]) qaxis[2].set_title('Sex vs IsAlone Survival Comparison')
Text(0.5,1,'Sex vs IsAlone Survival Comparison')
# 导入必要的库已经在代码之外完成了,这里不需要再次导入
# 创建一个1行2列的子图,大小为14x12
fig, (maxis1, maxis2) = plt.subplots(1, 2,figsize=(14,12))
# 绘制一个点图,比较家庭大小与性别、生存率的关系
sns.pointplot(x="FamilySize", y="Survived", hue="Sex", data=data1,
palette={"male": "blue", "female": "pink"}, # 设置男性为蓝色,女性为粉色
markers=["*", "o"], linestyles=["-", "--"], ax = maxis1) # 设置标记和线型,将图绘制在第一个子图上
# 绘制一个点图,比较船舱等级与性别、生存率的关系
sns.pointplot(x="Pclass", y="Survived", hue="Sex", data=data1,
palette={"male": "blue", "female": "pink"}, # 设置男性为蓝色,女性为粉色
markers=["*", "o"], linestyles=["-", "--"], ax = maxis2) # 设置标记和线型,将图绘制在第二个子图上
<matplotlib.axes._subplots.AxesSubplot at 0x7f57f2df7978>
# 导入 seaborn 库
import seaborn as sns
# 创建一个 FacetGrid 对象,用于绘制多个子图
# data1 是数据集,col = 'Embarked' 表示按照 Embarked 列进行分组
e = sns.FacetGrid(data1, col='Embarked')
# 在每个子图中绘制一个 pointplot,表示不同 Pclass、Sex 对应的 Survived 的均值
# 'Pclass' 表示 x 轴,'Survived' 表示 y 轴,'Sex' 表示 hue(颜色),ci=95.0 表示置信区间为 95%
# palette = 'deep' 表示使用深色调色板
e.map(sns.pointplot, 'Pclass', 'Survived', 'Sex', ci=95.0, palette='deep')
# 添加图例
e.add_legend()
<seaborn.axisgrid.FacetGrid at 0x7f57f660f2b0>
# 导入必要的库 import seaborn as sns # 创建一个FacetGrid对象,用于绘制图表 # data1是数据集,hue参数指定按照'Survived'列的值进行分类 # aspect参数指定图表的宽高比 a = sns.FacetGrid(data1, hue='Survived', aspect=4) # 使用kdeplot函数绘制核密度估计图,并设置阴影效果 # 'Age'参数指定绘制的数据列为'Age' a.map(sns.kdeplot, 'Age', shade=True) # 设置x轴的范围为0到数据集中'Age'列的最大值 a.set(xlim=(0, data1['Age'].max())) # 添加图例 a.add_legend()
<seaborn.axisgrid.FacetGrid at 0x7f57f254b048>
# 导入必要的库
import seaborn as sns
import matplotlib.pyplot as plt
# 创建一个FacetGrid对象,用于绘制多个子图
# data1是数据集,row参数指定按照'Sex'列进行分组,col参数指定按照'Pclass'列进行分组,hue参数指定按照'Survived'列进行着色
h = sns.FacetGrid(data1, row='Sex', col='Pclass', hue='Survived')
# 在每个子图上绘制直方图,x轴为'Age'列,alpha参数指定透明度为0.75
h.map(plt.hist, 'Age', alpha=0.75)
# 添加图例
h.add_legend()
<seaborn.axisgrid.FacetGrid at 0x7f57f246bdd8>
# 导入必要的库
import seaborn as sns
# 绘制数据集的配对图
# data1为数据集
# hue参数指定了根据'Survived'列的值对数据进行着色
# palette参数指定了使用'deep'调色板进行着色
# size参数指定了图的大小为1.2
# diag_kind参数指定了对角线上的图形类型为'kde',即核密度估计图
# diag_kws参数指定了对角线上的图形的阴影为True
# plot_kws参数指定了散点图的大小为10
pp = sns.pairplot(data1, hue='Survived', palette='deep', size=1.2, diag_kind='kde', diag_kws=dict(shade=True), plot_kws=dict(s=10))
# 设置x轴标签为空,即不显示x轴标签
pp.set(xticklabels=[])
<seaborn.axisgrid.PairGrid at 0x7f57f22bd2b0>
# 导入必要的库 import matplotlib.pyplot as plt import seaborn as sns # 定义一个函数,用于绘制数据集的相关性热力图 def correlation_heatmap(df): # 创建一个图形和一个子图 _ , ax = plt.subplots(figsize =(14, 12)) # 设置调色板,用于表示相关性的颜色 colormap = sns.diverging_palette(220, 10, as_cmap = True) # 绘制热力图 _ = sns.heatmap( df.corr(), # 计算数据集的相关系数矩阵 cmap = colormap, # 使用调色板设置颜色 square=True, # 设置热力图为正方形 cbar_kws={'shrink':.9 }, # 设置颜色条的大小 ax=ax, # 指定子图 annot=True, # 在热力图上显示数值 linewidths=0.1, # 设置热力图中每个单元格的边框宽度 vmax=1.0, # 设置颜色条的最大值 linecolor='white', # 设置热力图中每个单元格的边框颜色 annot_kws={'fontsize':12 } # 设置热力图上数值的字体大小 ) # 设置图标题 plt.title('Pearson Correlation of Features', y=1.05, size=15) # 调用函数绘制数据集data1的相关性热力图 correlation_heatmap(data1)
数据科学是数学(如统计学、线性代数等)、计算机科学(如编程语言、计算机系统等)和商业管理(如沟通、专业知识等)之间的多学科领域。大多数数据科学家来自这三个领域之一,所以他们倾向于偏向于这个学科。然而,数据科学就像一个三条腿的凳子,没有一条腿比其他腿更重要。因此,这一步需要数学方面的高级知识。但是不用担心,我们只需要一个高层次的概述,我们将在本文档中介绍。此外,由于计算机科学的帮助,很多繁重的工作已经为您完成。因此,曾经需要数学或统计学研究生学位的问题,现在只需要几行代码就可以解决。最后,我们需要一些商业头脑来思考问题。毕竟,就像训练一只导盲犬一样,它是从我们这里学习,而不是相反。
机器学习(ML)顾名思义,是教机器如何思考,而不是告诉它们该如何思考。虽然这个主题和大数据已经存在了几十年,但由于进入门槛降低,它比以往任何时候都更受欢迎,无论是对企业还是专业人士来说。这既是好事也是坏事。好处是这些算法现在可以被更多的人使用,可以解决现实世界中更多的问题。坏处是进入门槛降低意味着更多的人不会了解他们正在使用的工具,并可能得出错误的结论。这就是为什么我专注于教给你们的不仅仅是要做什么,还要告诉你们为什么要这样做。之前,我用一个类比来解释,就像让别人递给你一个十字螺丝刀,他们递给你一个平头螺丝刀,或者更糟糕的是一个锤子。最好的情况下,这显示了完全的无知。最坏的情况下,这使得完成项目变得不可能;甚至更糟糕的是,实施了错误的可行性情报。所以现在我已经强调了我的观点,我将告诉你们该怎么做,最重要的是,为什么要这样做。
首先,你必须明白,机器学习的目的是解决人类的问题。机器学习可以分为:监督学习、无监督学习和强化学习。监督学习是通过向模型呈现包含正确答案的训练数据集来训练模型。无监督学习是通过使用不包含正确答案的训练数据集来训练模型。而强化学习是前两者的混合,模型不会立即得到正确答案,而是在一系列事件之后得到正确答案以加强学习。我们正在进行监督机器学习,因为我们通过呈现一组特征及其相应的目标来训练我们的算法。然后,我们希望向它呈现同一数据集的一个新的子集,并在预测准确性方面获得类似的结果。
有许多机器学习算法,但它们可以分为四类:分类、回归、聚类或降维,具体取决于目标变量和数据建模目标。我们将把聚类和降维留到另一天,重点关注分类和回归。我们可以概括地说,连续目标变量需要回归算法,而离散目标变量需要分类算法。值得一提的是,逻辑回归虽然在名称中有回归,但实际上是一种分类算法。由于我们的问题是预测乘客是否生存,这是一个离散目标变量。我们将使用sklearn库中的分类算法开始我们的分析。我们将使用交叉验证和评分指标,在后面的部分中讨论,来排名和比较我们算法的性能。
机器学习选择:
现在我们确定了我们的解决方案是一个监督学习分类算法。我们可以缩小选择范围。
机器学习分类算法:
**重要提示:**当涉及数据建模时,初学者常问的问题是,“什么是最好的机器学习算法?”对此,初学者必须了解机器学习的无免费午餐定理(NFLT)。简而言之,NFLT表明,没有一个超级算法在所有情况下、对于所有数据集都表现最佳。因此,最好的方法是尝试多个MLA,对它们进行调整,并比较它们在特定情况下的表现。尽管如此,已经进行了一些对算法的比较研究,比如Caruana & Niculescu-Mizil 2006的MLA比较,Ogutu et al. 2011的基因组选择研究,Fernandez-Delgado et al. 2014的17个家族的179个分类器比较,Thoma 2016 sklearn比较,还有一种观点认为,“更多的数据胜过更好的算法”(https://www.kdnuggets.com/2015/06/machine-learning-more-data-better-algorithms.html)。
那么对于所有这些信息,初学者应该从哪里开始呢?我建议从树、装袋、随机森林和提升开始。它们基本上是决策树的不同实现方式,决策树是最容易学习和理解的概念。与像SVC这样的算法相比,它们也更容易调整,下一节将讨论这一点。下面,我将概述如何运行和比较几个MLA,但本文档的其余部分将重点介绍通过决策树及其衍生算法学习数据建模。
# 机器学习算法(MLA)选择和初始化 # 导入所需的库 # 这里没有给出import语句,需要根据实际情况导入所需的库 # 定义MLA列表,包含各种机器学习算法 MLA = [ # 集成方法 ensemble.AdaBoostClassifier(), # AdaBoost分类器 ensemble.BaggingClassifier(), # Bagging分类器 ensemble.ExtraTreesClassifier(), # ExtraTrees分类器 ensemble.GradientBoostingClassifier(), # GradientBoosting分类器 ensemble.RandomForestClassifier(), # RandomForest分类器 # 高斯过程 gaussian_process.GaussianProcessClassifier(), # 高斯过程分类器 # 广义线性模型 linear_model.LogisticRegressionCV(), # 带交叉验证的逻辑回归分类器 linear_model.PassiveAggressiveClassifier(), # PassiveAggressive分类器 linear_model.RidgeClassifierCV(), # 带交叉验证的岭回归分类器 linear_model.SGDClassifier(), # 随机梯度下降分类器 linear_model.Perceptron(), # 感知机分类器 # 朴素贝叶斯 naive_bayes.BernoulliNB(), # 伯努利朴素贝叶斯分类器 naive_bayes.GaussianNB(), # 高斯朴素贝叶斯分类器 # 最近邻 neighbors.KNeighborsClassifier(), # K最近邻分类器 # 支持向量机 svm.SVC(probability=True), # 支持向量机分类器 svm.NuSVC(probability=True), # Nu支持向量机分类器 svm.LinearSVC(), # 线性支持向量机分类器 # 决策树 tree.DecisionTreeClassifier(), # 决策树分类器 tree.ExtraTreeClassifier(), # ExtraTree分类器 # 判别分析 discriminant_analysis.LinearDiscriminantAnalysis(), # 线性判别分析分类器 discriminant_analysis.QuadraticDiscriminantAnalysis(), # 二次判别分析分类器 # xgboost XGBClassifier() # XGBoost分类器 ] # 使用ShuffleSplit类进行交叉验证划分数据集 cv_split = model_selection.ShuffleSplit(n_splits=10, test_size=.3, train_size=.6, random_state=0) # 将数据集划分为10份,训练集占60%,测试集占30% # 创建用于比较MLA指标的表格 MLA_columns = ['MLA Name', 'MLA Parameters', 'MLA Train Accuracy Mean', 'MLA Test Accuracy Mean', 'MLA Test Accuracy 3*STD', 'MLA Time'] MLA_compare = pd.DataFrame(columns=MLA_columns) # 创建用于比较MLA预测结果的表格 MLA_predict = data1[Target] # 遍历MLA列表,计算并保存性能指标到表格中 row_index = 0 for alg in MLA: # 获取算法名称和参数 MLA_name = alg.__class__.__name__ MLA_compare.loc[row_index, 'MLA Name'] = MLA_name MLA_compare.loc[row_index, 'MLA Parameters'] = str(alg.get_params()) # 使用交叉验证评估模型性能 cv_results = model_selection.cross_validate(alg, data1[data1_x_bin], data1[Target], cv=cv_split) MLA_compare.loc[row_index, 'MLA Time'] = cv_results['fit_time'].mean() # 计算平均训练时间 MLA_compare.loc[row_index, 'MLA Train Accuracy Mean'] = cv_results['train_score'].mean() # 计算平均训练准确率 MLA_compare.loc[row_index, 'MLA Test Accuracy Mean'] = cv_results['test_score'].mean() # 计算平均测试准确率 MLA_compare.loc[row_index, 'MLA Test Accuracy 3*STD'] = cv_results['test_score'].std() * 3 # 计算测试准确率的3倍标准差,用于评估模型的稳定性 # 保存MLA预测结果 alg.fit(data1[data1_x_bin], data1[Target]) MLA_predict[MLA_name] = alg.predict(data1[data1_x_bin]) row_index += 1 # 打印并按测试准确率排序表格 MLA_compare.sort_values(by=['MLA Test Accuracy Mean'], ascending=False, inplace=True) MLA_compare
MLA Name | MLA Parameters | MLA Train Accuracy Mean | MLA Test Accuracy Mean | MLA Test Accuracy 3*STD | MLA Time | |
---|---|---|---|---|---|---|
21 | XGBClassifier | {'base_score': 0.5, 'booster': 'gbtree', 'cols... | 0.856367 | 0.829478 | 0.0527546 | 0.0338062 |
4 | RandomForestClassifier | {'bootstrap': True, 'class_weight': None, 'cri... | 0.892322 | 0.826493 | 0.0679525 | 0.0147755 |
14 | SVC | {'C': 1.0, 'cache_size': 200, 'class_weight': ... | 0.837266 | 0.826119 | 0.0453876 | 0.0445107 |
3 | GradientBoostingClassifier | {'criterion': 'friedman_mse', 'init': None, 'l... | 0.866667 | 0.822761 | 0.0498731 | 0.0715864 |
15 | NuSVC | {'cache_size': 200, 'class_weight': None, 'coe... | 0.835768 | 0.822761 | 0.0493681 | 0.0524707 |
2 | ExtraTreesClassifier | {'bootstrap': False, 'class_weight': None, 'cr... | 0.895131 | 0.821269 | 0.0690863 | 0.0144257 |
17 | DecisionTreeClassifier | {'class_weight': None, 'criterion': 'gini', 'm... | 0.895131 | 0.81903 | 0.0575704 | 0.00189724 |
1 | BaggingClassifier | {'base_estimator': None, 'bootstrap': True, 'b... | 0.890449 | 0.813806 | 0.0614041 | 0.0157245 |
13 | KNeighborsClassifier | {'algorithm': 'auto', 'leaf_size': 30, 'metric... | 0.850375 | 0.813806 | 0.0690863 | 0.00233798 |
18 | ExtraTreeClassifier | {'class_weight': None, 'criterion': 'gini', 'm... | 0.895131 | 0.812687 | 0.0634811 | 0.00160697 |
0 | AdaBoostClassifier | {'algorithm': 'SAMME.R', 'base_estimator': Non... | 0.820412 | 0.81194 | 0.0498606 | 0.072931 |
5 | GaussianProcessClassifier | {'copy_X_train': True, 'kernel': None, 'max_it... | 0.871723 | 0.810448 | 0.0492537 | 0.350273 |
20 | QuadraticDiscriminantAnalysis | {'priors': None, 'reg_param': 0.0, 'store_cova... | 0.821536 | 0.80709 | 0.0810389 | 0.0176577 |
8 | RidgeClassifierCV | {'alphas': (0.1, 1.0, 10.0), 'class_weight': N... | 0.796629 | 0.79403 | 0.0360302 | 0.0105472 |
19 | LinearDiscriminantAnalysis | {'n_components': None, 'priors': None, 'shrink... | 0.796816 | 0.79403 | 0.0360302 | 0.00550387 |
16 | LinearSVC | {'C': 1.0, 'class_weight': None, 'dual': True,... | 0.79794 | 0.793657 | 0.0400646 | 0.0274618 |
6 | LogisticRegressionCV | {'Cs': 10, 'class_weight': None, 'cv': None, '... | 0.797004 | 0.790672 | 0.0653582 | 0.129134 |
12 | GaussianNB | {'priors': None} | 0.794757 | 0.781343 | 0.0874568 | 0.00183613 |
11 | BernoulliNB | {'alpha': 1.0, 'binarize': 0.0, 'class_prior':... | 0.785768 | 0.775373 | 0.0570347 | 0.00200269 |
7 | PassiveAggressiveClassifier | {'C': 1.0, 'average': False, 'class_weight': N... | 0.734457 | 0.730597 | 0.148826 | 0.00238907 |
10 | Perceptron | {'alpha': 0.0001, 'class_weight': None, 'eta0'... | 0.740075 | 0.728731 | 0.162221 | 0.00185683 |
9 | SGDClassifier | {'alpha': 0.0001, 'average': False, 'class_wei... | 0.737079 | 0.726119 | 0.17372 | 0.00182471 |
# 导入seaborn和matplotlib.pyplot模块
# 使用seaborn的barplot函数绘制条形图
# x轴为'MLA Test Accuracy Mean',y轴为'MLA Name',数据为MLA_compare,颜色为'm'
sns.barplot(x='MLA Test Accuracy Mean', y='MLA Name', data=MLA_compare, color='m')
# 使用pyplot的title函数设置图表标题
plt.title('Machine Learning Algorithm Accuracy Score \n')
# 使用pyplot的xlabel函数设置x轴标签
plt.xlabel('Accuracy Score (%)')
# 使用pyplot的ylabel函数设置y轴标签
plt.ylabel('Algorithm')
Text(0,0.5,'Algorithm')
让我们回顾一下,通过一些基本的数据清洗、分析和机器学习算法(MLA),我们能够以约82%的准确率预测乘客的生存情况。对于几行代码来说,这已经不错了。但是我们总是会问的问题是,我们能做得更好,更重要的是能否获得我们投入时间的回报(ROI)?例如,如果我们只能将准确率提高1/10个百分点,是否值得投入3个月的开发时间?如果你从事研究工作,也许答案是肯定的,但如果你主要从事商业工作,答案通常是否定的。所以,在改进模型时要记住这一点。
在决定如何改进我们的模型之前,让我们确定一下我们的模型是否值得保留。为了做到这一点,我们必须回到数据科学101的基础知识。我们知道这是一个二元问题,因为只有两种可能的结果;乘客幸存或死亡。所以,把它看作是一个硬币翻转问题。如果你有一枚公平的硬币,你猜测正面或反面,那么你有50%的几率猜对。所以,让我们将50%作为最差的模型性能;因为低于这个水平,那么当我可以通过抛硬币来预测时,我为什么还需要你呢?
好吧,所以在没有关于数据集的任何信息的情况下,我们总是可以通过二元问题得到50%的准确率。但是我们有关于数据集的信息,所以我们应该能做得更好。我们知道1502/2224或67.5%的人死亡。因此,如果我们只是预测最常见的情况,即100%的人死亡,那么我们将有67.5%的准确率。所以,让我们将68%作为差模型性能的标准,因为低于这个水平,那么当我可以通过预测最常见的情况来预测时,我为什么还需要你呢?
我们的准确率在提高,但我们能做得更好吗?我们的数据中有任何信号吗?为了说明这一点,我们将构建自己的决策树模型,因为它是最容易理解和需要简单的加法和乘法计算的模型。在创建决策树时,您希望提出问题,将您的目标响应分割成生存/1和死亡/0的同质子组。这既是科学的一部分,也是艺术的一部分,所以让我们玩一下21个问题的游戏,以展示它是如何工作的。如果你想自己跟着做,下载训练数据集并导入Excel。在行中创建一个透视表,列中是生存情况,值是计数和行计数的百分比,行中是下面描述的特征。
记住,游戏的目标是使用决策树模型创建子组,将生存/1放入一个桶中,将死亡/0放入另一个桶中。我们的经验法则是多数人的规则。也就是说,如果多数人或50%以上幸存,那么我们子组中的每个人都幸存/1,但如果幸存的人少于50%,那么我们子组中的每个人都死亡/0。此外,如果子组少于10个和/或我们的模型准确率达到平稳或下降,我们将停止。明白了吗?我们开始吧!
问题1:你在泰坦尼克号上吗? 如果是,那么大多数人(62%)死亡。请注意,我们的样本生存率与我们的总体生存率不同,尽管如此,如果我们假设每个人都死亡,我们的样本准确率为62%。
问题2:你是男性还是女性? 男性,大多数人(81%)死亡。女性,大多数人(74%)幸存。给我们的准确率为79%。
问题3A(沿着女性分支,计数=314):你是1、2还是3等舱? 1等舱,大多数人(97%)幸存,2等舱,大多数人(92%)幸存。由于死亡子组少于10个,我们将停止沿着这个分支继续下去。3等舱,幸存和死亡的比例是50-50。没有新的信息可以改善我们的模型。
问题4A(沿着女性3等舱分支,计数=144):你是从C、Q还是S登船的? 我们获得了一些信息。C和Q,大多数人仍然幸存,所以没有变化。此外,死亡子组少于10个,所以我们将停止。S,大多数人(63%)死亡。所以,我们将女性、3等舱、从S登船的人从假设他们幸存改为假设他们死亡。我们的模型准确率提高到81%。
问题5A(沿着女性3等舱从S登船的分支,计数=88): 到目前为止,看起来我们做出了正确的决策。再增加一层似乎并没有获得更多的信息。这个子组中有55人死亡,33人幸存,由于大多数人死亡,我们需要找到一个信号来识别这33人,或者找到一个子组将他们从死亡改为幸存,以提高我们的模型准确率。我们可以尝试一下我们的特征。我发现的一个是票价0-8,大多数人幸存。这是一个样本量很小的样本11-9,但在统计学中经常使用。我们稍微提高了准确率,但没有足够的提高使我们超过82%。所以,我们就到这里吧。
问题3B(沿着男性分支,计数=577): 回到问题2,我们知道大多数男性死亡。所以,我们正在寻找一个能够识别大多数幸存的子组的特征。令人惊讶的是,舱位或者登船地并不像对女性那样重要,但是头衔是重要的,并且使我们的准确率达到了82%。尝试其他特征,没有一个能将我们的准确率推到82%以上。所以,我们暂时停在这里。
你做到了,在非常少的信息的情况下,我们达到了82%的准确率。在最差、差、好、更好和最好的尺度上,我们将82%设置为好,因为它是一个简单的模型,给我们带来了不错的结果。但问题仍然存在,我们能比我们手工制作的模型做得更好吗?
在我们继续之前,让我们编写上面所写的代码。请注意,这是一个由“手工”创建的手动过程。你不必这样做,但在开始使用MLA之前了解它是很重要的。把MLA想象成一台TI-89计算器,在微积分考试中使用它非常强大,可以帮助你完成很多繁重的工作。但是如果你在考试中不知道你在做什么,即使是TI-89,也无法帮助你通过。所以,明智地学习下一节的内容。
参考资料:交叉验证和决策树教程
#IMPORTANT: 这是一个手工制作的模型,仅用于学习目的。 #然而,你也可以创建自己的预测模型,而不需要使用复杂的算法 :) #硬币翻转模型,使用随机数生成器生成1/幸存 0/死亡的预测结果 #遍历DataFrame的行,返回(index, Series)对:https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.html for index, row in data1.iterrows(): #随机数生成器:https://docs.python.org/2/library/random.html if random.random() > .5: # 随机生成一个0.0到1.0之间的浮点数 data1.set_value(index, 'Random_Predict', 1) #预测为幸存/1 else: data1.set_value(index, 'Random_Predict', 0) #预测为死亡/0 #计算随机猜测幸存的准确率。使用快捷方式 1 = 正确猜测,0 = 错误猜测 #该列的平均值将等于准确率 data1['Random_Score'] = 0 #假设预测错误 data1.loc[(data1['Survived'] == data1['Random_Predict']), 'Random_Score'] = 1 #对于正确的预测,将其设置为1 print('Coin Flip Model Accuracy: {:.2f}%'.format(data1['Random_Score'].mean()*100)) #我们也可以使用scikit的accuracy_score函数来节省几行代码 #http://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score print('Coin Flip Model Accuracy w/SciKit: {:.2f}%'.format(metrics.accuracy_score(data1['Survived'], data1['Random_Predict'])*100))
Coin Flip Model Accuracy: 47.81%
Coin Flip Model Accuracy w/SciKit: 47.81%
# 通过性别、舱位等因素对数据进行分组,并计算存活率
pivot_female = data1[data1.Sex=='female'].groupby(['Sex','Pclass', 'Embarked','FareBin'])['Survived'].mean()
print('Survival Decision Tree w/Female Node: \n',pivot_female)
# 通过性别、头衔等因素对数据进行分组,并计算存活率
pivot_male = data1[data1.Sex=='male'].groupby(['Sex','Title'])['Survived'].mean()
print('\n\nSurvival Decision Tree w/Male Node: \n',pivot_male)
Survival Decision Tree w/Female Node: Sex Pclass Embarked FareBin female 1 C (14.454, 31.0] 0.666667 (31.0, 512.329] 1.000000 Q (31.0, 512.329] 1.000000 S (14.454, 31.0] 1.000000 (31.0, 512.329] 0.955556 2 C (7.91, 14.454] 1.000000 (14.454, 31.0] 1.000000 (31.0, 512.329] 1.000000 Q (7.91, 14.454] 1.000000 S (7.91, 14.454] 0.875000 (14.454, 31.0] 0.916667 (31.0, 512.329] 1.000000 3 C (-0.001, 7.91] 1.000000 (7.91, 14.454] 0.428571 (14.454, 31.0] 0.666667 Q (-0.001, 7.91] 0.750000 (7.91, 14.454] 0.500000 (14.454, 31.0] 0.714286 S (-0.001, 7.91] 0.533333 (7.91, 14.454] 0.448276 (14.454, 31.0] 0.357143 (31.0, 512.329] 0.125000 Name: Survived, dtype: float64 Survival Decision Tree w/Male Node: Sex Title male Master 0.575000 Misc 0.250000 Mr 0.156673 Name: Survived, dtype: float64
#handmade data model using brain power (and Microsoft Excel Pivot Tables for quick calculations) #手工制作的数据模型,使用大脑计算(以及Microsoft Excel数据透视表进行快速计算) def mytree(df): #初始化表格以存储预测结果 Model = pd.DataFrame(data = {'Predict':[]}) male_title = ['Master'] #幸存的称号 for index, row in df.iterrows(): #问题1:你是否在泰坦尼克号上;大多数人都死了 Model.loc[index, 'Predict'] = 0 #问题2:你是女性吗;大多数女性幸存 if (df.loc[index, 'Sex'] == 'female'): Model.loc[index, 'Predict'] = 1 #问题3A 女性 - 班级和问题4 登船地点提供最少的信息 #问题5B 女性 - 票价范围;将女性节点决策树中小于0.5的值设为0 if ((df.loc[index, 'Sex'] == 'female') & (df.loc[index, 'Pclass'] == 3) & (df.loc[index, 'Embarked'] == 'S') & (df.loc[index, 'Fare'] > 8) ): Model.loc[index, 'Predict'] = 0 #问题3B 男性:称号;将大于0.5的值设为1,表示大多数幸存 if ((df.loc[index, 'Sex'] == 'male') & (df.loc[index, 'Title'] in male_title) ): Model.loc[index, 'Predict'] = 1 return Model #对数据进行建模 Tree_Predict = mytree(data1) print('Decision Tree Model Accuracy/Precision Score: {:.2f}%\n'.format(metrics.accuracy_score(data1['Survived'], Tree_Predict)*100)) #使用http://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report生成准确率摘要报告 #其中召回率得分=(真正例)/(真正例+假反例),1为最佳:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score #F1得分=精确率和召回率的加权平均值,1为最佳:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score print(metrics.classification_report(data1['Survived'], Tree_Predict))
Decision Tree Model Accuracy/Precision Score: 82.04%
precision recall f1-score support
0 0.82 0.91 0.86 549
1 0.82 0.68 0.75 342
avg / total 0.82 0.82 0.82 891
# 绘制混淆矩阵的函数 import itertools def plot_confusion_matrix(cm, classes, normalize=False, title='Confusion matrix', cmap=plt.cm.Blues): """ 这个函数打印并绘制混淆矩阵。 可以通过设置`normalize=True`来进行归一化。 """ if normalize: # 如果需要归一化,则将混淆矩阵的每个元素除以该行的总和,以得到归一化的混淆矩阵 cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print('Confusion matrix, without normalization') # 打印混淆矩阵 print(cm) # 绘制混淆矩阵图像 plt.imshow(cm, interpolation='nearest', cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) fmt = '.2f' if normalize else 'd' thresh = cm.max() / 2. # 在每个混淆矩阵元素的中心位置添加文本,显示该元素的值 for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])): plt.text(j, i, format(cm[i, j], fmt), horizontalalignment="center", color="white" if cm[i, j] > thresh else "black") plt.tight_layout() plt.ylabel('True label') plt.xlabel('Predicted label') # 计算混淆矩阵 cnf_matrix = metrics.confusion_matrix(data1['Survived'], Tree_Predict) np.set_printoptions(precision=2) class_names = ['Dead', 'Survived'] # 绘制未归一化的混淆矩阵图像 plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, title='Confusion matrix, without normalization') # 绘制归一化的混淆矩阵图像 plt.figure() plot_confusion_matrix(cnf_matrix, classes=class_names, normalize=True, title='Normalized confusion matrix')
Confusion matrix, without normalization
[[497 52]
[108 234]]
Normalized confusion matrix
[[ 0.91 0.09]
[ 0.32 0.68]]
在第5.0步骤中,我们使用了sklearn cross_validate函数来训练、测试和评估我们的模型性能。
记住,我们需要使用不同的子集来构建模型的训练数据和评估模型的测试数据。否则,我们的模型将会过拟合。这意味着它在已经见过的数据上的“预测”非常好,但在未见过的数据上的预测非常糟糕;这根本就不是预测。这就像在学校测验中作弊得到满分,但当你参加考试时,你会失败,因为你从未真正学到任何东西。机器学习也是如此。
CV基本上是一个快捷方式,可以多次拆分和评分我们的模型,这样我们就可以了解它在未见数据上的表现如何。这在Kaggle竞赛或任何一种一致性很重要且应避免出现意外的情况下非常有帮助。
除了CV之外,我们还使用了一个定制的sklearn train test splitter,以在测试评分中引入一些随机性。下面是默认CV拆分的图片。
当我们使用sklearn决策树分类器时,我们接受了所有函数的默认值。这给了我们机会看看不同的超参数设置如何改变模型的准确性。(点击这里了解更多关于参数和超参数的信息。)
然而,为了调整模型,我们需要真正理解它。这就是为什么我在前面的部分花时间向你展示预测如何工作的原因。现在让我们更多地了解一下我们的决策树算法。
来源:sklearn
决策树的一些优点包括:
决策树的缺点包括:
下面是可用的超参数和定义:
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
我们将使用ParameterGrid、GridSearchCV和自定义的sklearn评分来调整我们的模型;点击这里了解更多关于ROC_AUC得分的信息。然后我们将使用graphviz可视化我们的树。点击这里了解更多关于ROC_AUC得分的信息。
# 导入需要的库 from sklearn import tree from sklearn import model_selection # 创建决策树分类器对象 dtree = tree.DecisionTreeClassifier(random_state = 0) # 使用交叉验证评估基础模型 base_results = model_selection.cross_validate(dtree, data1[data1_x_bin], data1[Target], cv = cv_split) # 使用训练数据拟合决策树模型 dtree.fit(data1[data1_x_bin], data1[Target]) # 输出决策树模型的参数 print('BEFORE DT Parameters: ', dtree.get_params()) # 输出基础模型的训练得分和测试得分 print("BEFORE DT Training w/bin score mean: {:.2f}". format(base_results['train_score'].mean()*100)) print("BEFORE DT Test w/bin score mean: {:.2f}". format(base_results['test_score'].mean()*100)) print("BEFORE DT Test w/bin score 3*std: +/- {:.2f}". format(base_results['test_score'].std()*100*3)) #print("BEFORE DT Test w/bin set score min: {:.2f}". format(base_results['test_score'].min()*100)) print('-'*10) # 设置超参数的取值范围 param_grid = {'criterion': ['gini', 'entropy'], # 评估标准,两种计算信息增益的公式,gini和entropy,默认为gini #'splitter': ['best', 'random'], # 分割策略,两种策略,best和random,默认为best 'max_depth': [2,4,6,8,10,None], # 决策树的最大深度,默认为None #'min_samples_split': [2,5,10,.03,.05], # 最小分割样本数(占总样本数的比例),默认为2 #'min_samples_leaf': [1,5,10,.03,.05], # 最小叶子节点样本数(占总样本数的比例),默认为1 #'max_features': [None, 'auto'], # 在进行分割时考虑的最大特征数,默认为None或全部特征 'random_state': [0] # 随机数种子,用于控制随机数生成器 } # 使用网格搜索选择最佳模型 tune_model = model_selection.GridSearchCV(tree.DecisionTreeClassifier(), param_grid=param_grid, scoring = 'roc_auc', cv = cv_split) tune_model.fit(data1[data1_x_bin], data1[Target]) # 输出最佳模型的参数 print('AFTER DT Parameters: ', tune_model.best_params_) # 输出最佳模型的训练得分和测试得分 print("AFTER DT Training w/bin score mean: {:.2f}". format(tune_model.cv_results_['mean_train_score'][tune_model.best_index_]*100)) print("AFTER DT Test w/bin score mean: {:.2f}". format(tune_model.cv_results_['mean_test_score'][tune_model.best_index_]*100)) print("AFTER DT Test w/bin score 3*std: +/- {:.2f}". format(tune_model.cv_results_['std_test_score'][tune_model.best_index_]*100*3)) print('-'*10) # 使用最佳模型进行交叉验证 #tune_results = model_selection.cross_validate(tune_model, data1[data1_x_bin], data1[Target], cv = cv_split) # 输出最佳模型的参数和训练得分、测试得分 #print('AFTER DT Parameters: ', tune_model.best_params_) #print("AFTER DT Training w/bin set score mean: {:.2f}". format(tune_results['train_score'].mean()*100)) #print("AFTER DT Test w/bin set score mean: {:.2f}". format(tune_results['test_score'].mean()*100)) #print("AFTER DT Test w/bin set score min: {:.2f}". format(tune_results['test_score'].min()*100)) #print('-'*10)
BEFORE DT Parameters: {'class_weight': None, 'criterion': 'gini', 'max_depth': None, 'max_features': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'min_impurity_split': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'presort': False, 'random_state': 0, 'splitter': 'best'}
BEFORE DT Training w/bin score mean: 89.51
BEFORE DT Test w/bin score mean: 82.09
BEFORE DT Test w/bin score 3*std: +/- 5.57
----------
AFTER DT Parameters: {'criterion': 'gini', 'max_depth': 4, 'random_state': 0}
AFTER DT Training w/bin score mean: 89.35
AFTER DT Test w/bin score mean: 87.40
AFTER DT Test w/bin score 3*std: +/- 5.00
----------
正如之前所述,更多的预测变量并不意味着模型更好,而是选择正确的预测变量才能得到更好的模型。因此,在数据建模中,另一步是进行特征选择。Sklearn提供了几种选择,我们将使用递归特征消除(RFE)与交叉验证(CV)。
#base model #输出数据集data1[data1_x_bin]的形状和列名 print('BEFORE DT RFE Training Shape Old: ', data1[data1_x_bin].shape) print('BEFORE DT RFE Training Columns Old: ', data1[data1_x_bin].columns.values) #输出基础模型的训练得分和测试得分的平均值和标准差 print("BEFORE DT RFE Training w/bin score mean: {:.2f}". format(base_results['train_score'].mean()*100)) print("BEFORE DT RFE Test w/bin score mean: {:.2f}". format(base_results['test_score'].mean()*100)) print("BEFORE DT RFE Test w/bin score 3*std: +/- {:.2f}". format(base_results['test_score'].std()*100*3)) print('-'*10) #feature selection #使用RFECV进行特征选择 dtree_rfe = feature_selection.RFECV(dtree, step = 1, scoring = 'accuracy', cv = cv_split) dtree_rfe.fit(data1[data1_x_bin], data1[Target]) #将x和y转换为减少的特征并拟合新模型 #另一种方法:可以使用管道来减少拟合和转换步骤:http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html X_rfe = data1[data1_x_bin].columns.values[dtree_rfe.get_support()] rfe_results = model_selection.cross_validate(dtree, data1[X_rfe], data1[Target], cv = cv_split) #print(dtree_rfe.grid_scores_) #输出数据集data1[X_rfe]的形状和列名 print('AFTER DT RFE Training Shape New: ', data1[X_rfe].shape) print('AFTER DT RFE Training Columns New: ', X_rfe) #输出特征选择后的模型的训练得分和测试得分的平均值和标准差 print("AFTER DT RFE Training w/bin score mean: {:.2f}". format(rfe_results['train_score'].mean()*100)) print("AFTER DT RFE Test w/bin score mean: {:.2f}". format(rfe_results['test_score'].mean()*100)) print("AFTER DT RFE Test w/bin score 3*std: +/- {:.2f}". format(rfe_results['test_score'].std()*100*3)) print('-'*10) #tune rfe model #使用GridSearchCV对特征选择后的模型进行调参 rfe_tune_model = model_selection.GridSearchCV(tree.DecisionTreeClassifier(), param_grid=param_grid, scoring = 'roc_auc', cv = cv_split) rfe_tune_model.fit(data1[X_rfe], data1[Target]) #print(rfe_tune_model.cv_results_.keys()) #print(rfe_tune_model.cv_results_['params']) #输出调参后的模型的最佳参数 print('AFTER DT RFE Tuned Parameters: ', rfe_tune_model.best_params_) #print(rfe_tune_model.cv_results_['mean_train_score']) #输出调参后的模型的训练得分和测试得分的平均值和标准差 print("AFTER DT RFE Tuned Training w/bin score mean: {:.2f}". format(rfe_tune_model.cv_results_['mean_train_score'][tune_model.best_index_]*100)) #print(rfe_tune_model.cv_results_['mean_test_score']) print("AFTER DT RFE Tuned Test w/bin score mean: {:.2f}". format(rfe_tune_model.cv_results_['mean_test_score'][tune_model.best_index_]*100)) print("AFTER DT RFE Tuned Test w/bin score 3*std: +/- {:.2f}". format(rfe_tune_model.cv_results_['std_test_score'][tune_model.best_index_]*100*3)) print('-'*10)
BEFORE DT RFE Training Shape Old: (891, 7) BEFORE DT RFE Training Columns Old: ['Sex_Code' 'Pclass' 'Embarked_Code' 'Title_Code' 'FamilySize' 'AgeBin_Code' 'FareBin_Code'] BEFORE DT RFE Training w/bin score mean: 89.51 BEFORE DT RFE Test w/bin score mean: 82.09 BEFORE DT RFE Test w/bin score 3*std: +/- 5.57 ---------- AFTER DT RFE Training Shape New: (891, 6) AFTER DT RFE Training Columns New: ['Sex_Code' 'Pclass' 'Title_Code' 'FamilySize' 'AgeBin_Code' 'FareBin_Code'] AFTER DT RFE Training w/bin score mean: 88.16 AFTER DT RFE Test w/bin score mean: 83.06 AFTER DT RFE Test w/bin score 3*std: +/- 6.22 ---------- AFTER DT RFE Tuned Parameters: {'criterion': 'gini', 'max_depth': 4, 'random_state': 0} AFTER DT RFE Tuned Training w/bin score mean: 89.39 AFTER DT RFE Tuned Test w/bin score mean: 87.34 AFTER DT RFE Tuned Test w/bin score 3*std: +/- 6.21 ----------
# 导入graphviz库 import graphviz # 使用tree.export_graphviz函数生成决策树的MLA版本的图形化表示 # 参数dtree为决策树模型 # 参数out_file为输出文件,默认为None,表示不输出到文件,而是返回生成的图形化表示的字符串 # 参数feature_names为特征的名称列表,用于标识决策树中的特征 # 参数class_names为类别的名称列表,用于标识决策树中的类别 # 参数filled为布尔值,表示是否给决策树的节点填充颜色,默认为False # 参数rounded为布尔值,表示是否给决策树的节点绘制圆角矩形,默认为False dot_data = tree.export_graphviz(dtree, out_file=None, feature_names = data1_x_bin, class_names = True, filled = True, rounded = True) # 使用graphviz库的Source函数将生成的图形化表示字符串转换为图形对象 graph = graphviz.Source(dot_data) # 输出图形对象 graph
语料:
<a id="ch11"></a>
The next step is to prepare for submission using the validation data.
下一步是使用验证数据准备提交。
# 对比算法的预测结果,其中1表示完全相似,0表示完全相反
# 在这些预测结果中有一些1,但也有足够多的蓝色和浅红色,可以通过将它们结合起来创建一个“超级算法”
# 使用correlation_heatmap函数绘制相关性热力图,传入MLA_predict作为参数
# 导入所需的库和模块 # 导入ensemble模块中的VotingClassifier类,用于实现投票分类器 from sklearn import ensemble # 导入gaussian_process模块中的GaussianProcessClassifier类,用于实现高斯过程分类器 from sklearn import gaussian_process # 导入linear_model模块中的LogisticRegressionCV类,用于实现逻辑回归分类器 from sklearn import linear_model # 导入naive_bayes模块中的BernoulliNB和GaussianNB类,用于实现朴素贝叶斯分类器 from sklearn import naive_bayes # 导入neighbors模块中的KNeighborsClassifier类,用于实现K近邻分类器 from sklearn import neighbors # 导入svm模块中的SVC类,用于实现支持向量机分类器 from sklearn import svm # 导入xgboost模块中的XGBClassifier类,用于实现XGBoost分类器 from xgboost import XGBClassifier # 定义投票分类器的模型列表 vote_est = [ # 集成方法 ('ada', ensemble.AdaBoostClassifier()), # AdaBoost分类器 ('bc', ensemble.BaggingClassifier()), # Bagging分类器 ('etc',ensemble.ExtraTreesClassifier()), # ExtraTrees分类器 ('gbc', ensemble.GradientBoostingClassifier()), # GradientBoosting分类器 ('rfc', ensemble.RandomForestClassifier()), # RandomForest分类器 # 高斯过程分类器 ('gpc', gaussian_process.GaussianProcessClassifier()), # 逻辑回归分类器 ('lr', linear_model.LogisticRegressionCV()), # 朴素贝叶斯分类器 ('bnb', naive_bayes.BernoulliNB()), # 伯努利朴素贝叶斯分类器 ('gnb', naive_bayes.GaussianNB()), # 高斯朴素贝叶斯分类器 # K近邻分类器 ('knn', neighbors.KNeighborsClassifier()), # 支持向量机分类器 ('svc', svm.SVC(probability=True)), # XGBoost分类器 ('xgb', XGBClassifier()) ] # 创建硬投票分类器 vote_hard = ensemble.VotingClassifier(estimators=vote_est, voting='hard') # 使用交叉验证对硬投票分类器进行评估 vote_hard_cv = model_selection.cross_validate(vote_hard, data1[data1_x_bin], data1[Target], cv=cv_split) # 使用训练数据对硬投票分类器进行训练 vote_hard.fit(data1[data1_x_bin], data1[Target]) # 输出硬投票分类器的训练得分均值 print("Hard Voting Training w/bin score mean: {:.2f}".format(vote_hard_cv['train_score'].mean() * 100)) # 输出硬投票分类器的测试得分均值 print("Hard Voting Test w/bin score mean: {:.2f}".format(vote_hard_cv['test_score'].mean() * 100)) # 输出硬投票分类器的测试得分3倍标准差 print("Hard Voting Test w/bin score 3*std: +/- {:.2f}".format(vote_hard_cv['test_score'].std() * 100 * 3)) print('-' * 10) # 创建软投票分类器 vote_soft = ensemble.VotingClassifier(estimators=vote_est, voting='soft') # 使用交叉验证对软投票分类器进行评估 vote_soft_cv = model_selection.cross_validate(vote_soft, data1[data1_x_bin], data1[Target], cv=cv_split) # 使用训练数据对软投票分类器进行训练 vote_soft.fit(data1[data1_x_bin], data1[Target]) # 输出软投票分类器的训练得分均值 print("Soft Voting Training w/bin score mean: {:.2f}".format(vote_soft_cv['train_score'].mean() * 100)) # 输出软投票分类器的测试得分均值 print("Soft Voting Test w/bin score mean: {:.2f}".format(vote_soft_cv['test_score'].mean() * 100)) # 输出软投票分类器的测试得分3倍标准差 print("Soft Voting Test w/bin score 3*std: +/- {:.2f}".format(vote_soft_cv['test_score'].std() * 100 * 3)) print('-' * 10)
Hard Voting Training w/bin score mean: 86.59
Hard Voting Test w/bin score mean: 82.39
Hard Voting Test w/bin score 3*std: +/- 4.95
----------
Soft Voting Training w/bin score mean: 87.15
Soft Voting Test w/bin score mean: 82.35
Soft Voting Test w/bin score 3*std: +/- 4.85
----------
#IMPORTANT: THIS SECTION IS UNDER CONSTRUCTION!!!! 12.24.17 #UPDATE: This section was scrapped for the next section; as it's more computational friendly. #WARNING: Running is very computational intensive and time expensive #code is written for experimental/developmental purposes and not production ready #tune each estimator before creating a super model #http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html grid_n_estimator = [50,100,300] # 定义n_estimators的取值范围 grid_ratio = [.1,.25,.5,.75,1.0] # 定义learning_rate和max_samples的取值范围 grid_learn = [.01,.03,.05,.1,.25] # 定义learning_rate的取值范围 grid_max_depth = [2,4,6,None] # 定义max_depth的取值范围 grid_min_samples = [5,10,.03,.05,.10] # 定义min_samples_split和min_samples_leaf的取值范围 grid_criterion = ['gini', 'entropy'] # 定义criterion的取值范围 grid_bool = [True, False] # 定义bool类型的取值范围 grid_seed = [0] # 定义random_state的取值范围 vote_param = [{ # #http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html 'ada__n_estimators': grid_n_estimator, # AdaBoostClassifier的n_estimators参数取值范围 'ada__learning_rate': grid_ratio, # AdaBoostClassifier的learning_rate参数取值范围 'ada__algorithm': ['SAMME', 'SAMME.R'], # AdaBoostClassifier的algorithm参数取值范围 'ada__random_state': grid_seed, # AdaBoostClassifier的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html#sklearn.ensemble.BaggingClassifier 'bc__n_estimators': grid_n_estimator, # BaggingClassifier的n_estimators参数取值范围 'bc__max_samples': grid_ratio, # BaggingClassifier的max_samples参数取值范围 'bc__oob_score': grid_bool, # BaggingClassifier的oob_score参数取值范围 'bc__random_state': grid_seed, # BaggingClassifier的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier 'etc__n_estimators': grid_n_estimator, # ExtraTreesClassifier的n_estimators参数取值范围 'etc__criterion': grid_criterion, # ExtraTreesClassifier的criterion参数取值范围 'etc__max_depth': grid_max_depth, # ExtraTreesClassifier的max_depth参数取值范围 'etc__random_state': grid_seed, # ExtraTreesClassifier的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier 'gbc__loss': ['deviance', 'exponential'], # GradientBoostingClassifier的loss参数取值范围 'gbc__learning_rate': grid_ratio, # GradientBoostingClassifier的learning_rate参数取值范围 'gbc__n_estimators': grid_n_estimator, # GradientBoostingClassifier的n_estimators参数取值范围 'gbc__criterion': ['friedman_mse', 'mse', 'mae'], # GradientBoostingClassifier的criterion参数取值范围 'gbc__max_depth': grid_max_depth, # GradientBoostingClassifier的max_depth参数取值范围 'gbc__min_samples_split': grid_min_samples, # GradientBoostingClassifier的min_samples_split参数取值范围 'gbc__min_samples_leaf': grid_min_samples, # GradientBoostingClassifier的min_samples_leaf参数取值范围 'gbc__random_state': grid_seed, # GradientBoostingClassifier的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier 'rfc__n_estimators': grid_n_estimator, # RandomForestClassifier的n_estimators参数取值范围 'rfc__criterion': grid_criterion, # RandomForestClassifier的criterion参数取值范围 'rfc__max_depth': grid_max_depth, # RandomForestClassifier的max_depth参数取值范围 'rfc__min_samples_split': grid_min_samples, # RandomForestClassifier的min_samples_split参数取值范围 'rfc__min_samples_leaf': grid_min_samples, # RandomForestClassifier的min_samples_leaf参数取值范围 'rfc__bootstrap': grid_bool, # RandomForestClassifier的bootstrap参数取值范围 'rfc__oob_score': grid_bool, # RandomForestClassifier的oob_score参数取值范围 'rfc__random_state': grid_seed, # RandomForestClassifier的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressionCV.html#sklearn.linear_model.LogisticRegressionCV 'lr__fit_intercept': grid_bool, # LogisticRegressionCV的fit_intercept参数取值范围 'lr__penalty': ['l1','l2'], # LogisticRegressionCV的penalty参数取值范围 'lr__solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'], # LogisticRegressionCV的solver参数取值范围 'lr__random_state': grid_seed, # LogisticRegressionCV的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB 'bnb__alpha': grid_ratio, # BernoulliNB的alpha参数取值范围 'bnb__prior': grid_bool, # BernoulliNB的prior参数取值范围 'bnb__random_state': grid_seed, # BernoulliNB的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier 'knn__n_neighbors': [1,2,3,4,5,6,7], # KNeighborsClassifier的n_neighbors参数取值范围 'knn__weights': ['uniform', 'distance'], # KNeighborsClassifier的weights参数取值范围 'knn__algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'], # KNeighborsClassifier的algorithm参数取值范围 'knn__random_state': grid_seed, # KNeighborsClassifier的random_state参数取值范围 #http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC #http://blog.hackerearth.com/simple-tutorial-svm-parameter-tuning-python-r 'svc__kernel': ['linear', 'poly', 'rbf', 'sigmoid'], # SVC的kernel参数取值范围 'svc__C': grid_max_depth, # SVC的C参数取值范围 'svc__gamma': grid_ratio, # SVC的gamma参数取值范围 'svc__decision_function_shape': ['ovo', 'ovr'], # SVC的decision_function_shape参数取值范围 'svc__probability': [True], # SVC的probability参数取值范围 'svc__random_state': grid_seed, # SVC的random_state参数取值范围 #http://xgboost.readthedocs.io/en/latest/parameter.html 'xgb__learning_rate': grid_ratio, # XGBClassifier的learning_rate参数取值范围 'xgb__max_depth': [2,4,6,8,10], # XGBClassifier的max_depth参数取值范围 'xgb__tree_method': ['exact', 'approx', 'hist'], # XGBClassifier的tree_method参数取值范围 'xgb__objective': ['reg:linear', 'reg:logistic', 'binary:logistic'], # XGBClassifier的objective参数取值范围 'xgb__seed': grid_seed # XGBClassifier的seed参数取值范围 }] #Soft Vote with tuned models #grid_soft = model_selection.GridSearchCV(estimator = vote_soft, param_grid = vote_param, cv = 2, scoring = 'roc_auc') #grid_soft.fit(data1[data1_x_bin], data1[Target]) #print(grid_soft.cv_results_.keys()) #print(grid_soft.cv_results_['params']) #print('Soft Vote Tuned Parameters: ', grid_soft.best_params_) #print(grid_soft.cv_results_['mean_train_score']) #print("Soft Vote Tuned Training w/bin set score mean: {:.2f}". format(grid_soft.cv_results_['mean_train_score'][tune_model.best_index_]*100)) #print(grid_soft.cv_results_['mean_test_score']) #print("Soft Vote Tuned Test w/bin set score mean: {:.2f}". format(grid_soft.cv_results_['mean_test_score'][tune_model.best_index_]*100)) #print("Soft Vote Tuned Test w/bin score 3*std: +/- {:.2f}". format(grid_soft.cv_results_['std_test_score'][tune_model.best_index_]*100*3)) #print('-'*10) #credit: https://rasbt.github.io/mlxtend/user_guide/classifier/EnsembleVoteClassifier/ #cv_keys = ('mean_test_score', 'std_test_score', 'params') #for r, _ in enumerate(grid_soft.cv_results_['mean_test_score']): # print("%0.3f +/- %0.2f %r" # % (grid_soft.cv_results_[cv_keys[0]][r], # grid_soft.cv_results_[cv_keys[1]][r] / 2.0, # grid_soft.cv_results_[cv_keys[2]][r])) #print('-'*10)
#WARNING: Running is very computational intensive and time expensive. #Code is written for experimental/developmental purposes and not production ready! #定义一些超参数的取值范围 grid_n_estimator = [10, 50, 100, 300] #AdaBoostClassifier和BaggingClassifier的n_estimators参数的取值范围 grid_ratio = [.1, .25, .5, .75, 1.0] #BaggingClassifier的max_samples参数的取值范围和SVC的gamma参数的取值范围 grid_learn = [.01, .03, .05, .1, .25] #AdaBoostClassifier和GradientBoostingClassifier的learning_rate参数的取值范围 grid_max_depth = [2, 4, 6, 8, 10, None] #ExtraTreesClassifier和GradientBoostingClassifier的max_depth参数的取值范围 grid_min_samples = [5, 10, .03, .05, .10] #暂时没有使用到 grid_criterion = ['gini', 'entropy'] #ExtraTreesClassifier和RandomForestClassifier的criterion参数的取值范围 grid_bool = [True, False] #LogisticRegressionCV的fit_intercept参数的取值范围 grid_seed = [0] #随机种子 #定义一些模型的参数组合 grid_param = [ [{ #AdaBoostClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html 'n_estimators': grid_n_estimator, #default=50 'learning_rate': grid_learn, #default=1 #'algorithm': ['SAMME', 'SAMME.R'], #default=’SAMME.R 'random_state': grid_seed }], [{ #BaggingClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html#sklearn.ensemble.BaggingClassifier 'n_estimators': grid_n_estimator, #default=10 'max_samples': grid_ratio, #default=1.0 'random_state': grid_seed }], [{ #ExtraTreesClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier 'n_estimators': grid_n_estimator, #default=10 'criterion': grid_criterion, #default=”gini” 'max_depth': grid_max_depth, #default=None 'random_state': grid_seed }], [{ #GradientBoostingClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier #'loss': ['deviance', 'exponential'], #default=’deviance’ 'learning_rate': [.05], #default=0.1 -- 12/31/17 set to reduce runtime -- The best parameter for GradientBoostingClassifier is {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 300, 'random_state': 0} with a runtime of 264.45 seconds. 'n_estimators': [300], #default=100 -- 12/31/17 set to reduce runtime -- The best parameter for GradientBoostingClassifier is {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 300, 'random_state': 0} with a runtime of 264.45 seconds. #'criterion': ['friedman_mse', 'mse', 'mae'], #default=”friedman_mse” 'max_depth': grid_max_depth, #default=3 'random_state': grid_seed }], [{ #RandomForestClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier 'n_estimators': grid_n_estimator, #default=10 'criterion': grid_criterion, #default=”gini” 'max_depth': grid_max_depth, #default=None 'oob_score': [True], #default=False -- 12/31/17 set to reduce runtime -- The best parameter for RandomForestClassifier is {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'oob_score': True, 'random_state': 0} with a runtime of 146.35 seconds. 'random_state': grid_seed }], [{ #GaussianProcessClassifier 'max_iter_predict': grid_n_estimator, #default: 100 'random_state': grid_seed }], [{ #LogisticRegressionCV - http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegressionCV.html#sklearn.linear_model.LogisticRegressionCV 'fit_intercept': grid_bool, #default: True #'penalty': ['l1','l2'], 'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'], #default: lbfgs 'random_state': grid_seed }], [{ #BernoulliNB - http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB 'alpha': grid_ratio, #default: 1.0 }], #GaussianNB - [{}], [{ #KNeighborsClassifier - http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier 'n_neighbors': [1,2,3,4,5,6,7], #default: 5 'weights': ['uniform', 'distance'], #default = ‘uniform’ 'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute'] }], [{ #SVC - http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC #http://blog.hackerearth.com/simple-tutorial-svm-parameter-tuning-python-r #'kernel': ['linear', 'poly', 'rbf', 'sigmoid'], 'C': [1,2,3,4,5], #default=1.0 'gamma': grid_ratio, #edfault: auto 'decision_function_shape': ['ovo', 'ovr'], #default:ovr 'probability': [True], 'random_state': grid_seed }], [{ #XGBClassifier - http://xgboost.readthedocs.io/en/latest/parameter.html 'learning_rate': grid_learn, #default: .3 'max_depth': [1,2,4,6,8,10], #default 2 'n_estimators': grid_n_estimator, 'seed': grid_seed }] ] start_total = time.perf_counter() #记录总的运行时间 for clf, param in zip (vote_est, grid_param): #对于每个模型和其对应的参数组合进行遍历 start = time.perf_counter() best_search = model_selection.GridSearchCV(estimator = clf[1], param_grid = param, cv = cv_split, scoring = 'roc_auc') #使用GridSearchCV进行参数搜索 best_search.fit(data1[data1_x_bin], data1[Target]) #在训练集上进行参数搜索 run = time.perf_counter() - start #记录每个模型的运行时间 best_param = best_search.best_params_ #获取最佳参数 print('The best parameter for {} is {} with a runtime of {:.2f} seconds.'.format(clf[1].__class__.__name__, best_param, run)) clf[1].set_params(**best_param) #将最佳参数设置给模型 run_total = time.perf_counter() - start_total #记录总的运行时间 print('Total optimization time was {:.2f} minutes.'.format(run_total/60)) print('-'*10)
The best parameter for AdaBoostClassifier is {'learning_rate': 0.1, 'n_estimators': 300, 'random_state': 0} with a runtime of 37.28 seconds.
The best parameter for BaggingClassifier is {'max_samples': 0.25, 'n_estimators': 300, 'random_state': 0} with a runtime of 33.04 seconds.
The best parameter for ExtraTreesClassifier is {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'random_state': 0} with a runtime of 68.93 seconds.
The best parameter for GradientBoostingClassifier is {'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 300, 'random_state': 0} with a runtime of 38.77 seconds.
The best parameter for RandomForestClassifier is {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'oob_score': True, 'random_state': 0} with a runtime of 84.14 seconds.
The best parameter for GaussianProcessClassifier is {'max_iter_predict': 10, 'random_state': 0} with a runtime of 6.19 seconds.
The best parameter for LogisticRegressionCV is {'fit_intercept': True, 'random_state': 0, 'solver': 'liblinear'} with a runtime of 9.40 seconds.
The best parameter for BernoulliNB is {'alpha': 0.1} with a runtime of 0.24 seconds.
The best parameter for GaussianNB is {} with a runtime of 0.05 seconds.
The best parameter for KNeighborsClassifier is {'algorithm': 'brute', 'n_neighbors': 7, 'weights': 'uniform'} with a runtime of 5.56 seconds.
The best parameter for SVC is {'C': 2, 'decision_function_shape': 'ovo', 'gamma': 0.1, 'probability': True, 'random_state': 0} with a runtime of 30.49 seconds.
The best parameter for XGBClassifier is {'learning_rate': 0.01, 'max_depth': 4, 'n_estimators': 300, 'seed': 0} with a runtime of 43.57 seconds.
Total optimization time was 5.96 minutes.
----------
# 导入所需的库 # 创建一个Hard Voting分类器,使用之前定义的vote_est模型列表,voting方式为'hard' grid_hard = ensemble.VotingClassifier(estimators = vote_est , voting = 'hard') # 使用交叉验证对Hard Voting分类器进行评估,使用data1[data1_x_bin]作为特征数据,data1[Target]作为目标数据,cv参数为cv_split grid_hard_cv = model_selection.cross_validate(grid_hard, data1[data1_x_bin], data1[Target], cv = cv_split) # 使用data1[data1_x_bin]和data1[Target]对Hard Voting分类器进行训练 grid_hard.fit(data1[data1_x_bin], data1[Target]) # 打印Hard Voting分类器在训练集上的平均得分 print("Hard Voting w/Tuned Hyperparameters Training w/bin score mean: {:.2f}". format(grid_hard_cv['train_score'].mean()*100)) # 打印Hard Voting分类器在测试集上的平均得分 print("Hard Voting w/Tuned Hyperparameters Test w/bin score mean: {:.2f}". format(grid_hard_cv['test_score'].mean()*100)) # 打印Hard Voting分类器在测试集上的得分的3倍标准差 print("Hard Voting w/Tuned Hyperparameters Test w/bin score 3*std: +/- {:.2f}". format(grid_hard_cv['test_score'].std()*100*3)) print('-'*10) # 创建一个Soft Voting分类器,使用之前定义的vote_est模型列表,voting方式为'soft' grid_soft = ensemble.VotingClassifier(estimators = vote_est , voting = 'soft') # 使用交叉验证对Soft Voting分类器进行评估,使用data1[data1_x_bin]作为特征数据,data1[Target]作为目标数据,cv参数为cv_split grid_soft_cv = model_selection.cross_validate(grid_soft, data1[data1_x_bin], data1[Target], cv = cv_split) # 使用data1[data1_x_bin]和data1[Target]对Soft Voting分类器进行训练 grid_soft.fit(data1[data1_x_bin], data1[Target]) # 打印Soft Voting分类器在训练集上的平均得分 print("Soft Voting w/Tuned Hyperparameters Training w/bin score mean: {:.2f}". format(grid_soft_cv['train_score'].mean()*100)) # 打印Soft Voting分类器在测试集上的平均得分 print("Soft Voting w/Tuned Hyperparameters Test w/bin score mean: {:.2f}". format(grid_soft_cv['test_score'].mean()*100)) # 打印Soft Voting分类器在测试集上的得分的3倍标准差 print("Soft Voting w/Tuned Hyperparameters Test w/bin score 3*std: +/- {:.2f}". format(grid_soft_cv['test_score'].std()*100*3)) print('-'*10) # 输出各个分类器的最佳参数和运行时间 # AdaBoostClassifier的最佳参数是{'learning_rate': 0.1, 'n_estimators': 300, 'random_state': 0},运行时间为33.39秒 # BaggingClassifier的最佳参数是{'max_samples': 0.25, 'n_estimators': 300, 'random_state': 0},运行时间为30.28秒 # ExtraTreesClassifier的最佳参数是{'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'random_state': 0},运行时间为64.76秒 # GradientBoostingClassifier的最佳参数是{'learning_rate': 0.05, 'max_depth': 2, 'n_estimators': 300, 'random_state': 0},运行时间为34.35秒 # RandomForestClassifier的最佳参数是{'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'oob_score': True, 'random_state': 0},运行时间为76.32秒 # GaussianProcessClassifier的最佳参数是{'max_iter_predict': 10, 'random_state': 0},运行时间为6.01秒 # LogisticRegressionCV的最佳参数是{'fit_intercept': True, 'random_state': 0, 'solver': 'liblinear'},运行时间为8.04秒 # BernoulliNB的最佳参数是{'alpha': 0.1},运行时间为0.19秒 # GaussianNB的最佳参数是{},运行时间为0.04秒 # KNeighborsClassifier的最佳参数是{'algorithm': 'brute', 'n_neighbors': 7, 'weights': 'uniform'},运行时间为4.84秒 # SVC的最佳参数是{'C': 2, 'decision_function_shape': 'ovo', 'gamma': 0.1, 'probability': True, 'random_state': 0},运行时间为29.39秒 # XGBClassifier的最佳参数是{'learning_rate': 0.01, 'max_depth': 4, 'n_estimators': 300, 'seed': 0},运行时间为46.23秒 # 总优化时间为5.56分钟。
Hard Voting w/Tuned Hyperparameters Training w/bin score mean: 85.22
Hard Voting w/Tuned Hyperparameters Test w/bin score mean: 82.31
Hard Voting w/Tuned Hyperparameters Test w/bin score 3*std: +/- 5.26
----------
Soft Voting w/Tuned Hyperparameters Training w/bin score mean: 84.76
Soft Voting w/Tuned Hyperparameters Test w/bin score mean: 82.28
Soft Voting w/Tuned Hyperparameters Test w/bin score 3*std: +/- 5.42
----------
# 准备数据进行建模 # 打印数据信息 print(data_val.info()) print("-"*10) # 手工决策树 - 提交得分 = 0.77990 # 将Survived列设置为mytree函数的返回值,并转换为整数类型 data_val['Survived'] = mytree(data_val).astype(int) # 决策树建模 - 使用完整数据集进行建模,提交得分:默认=0.76555,调整后=0.77990 # 使用决策树分类器进行建模 # submit_dt = tree.DecisionTreeClassifier() # submit_dt = model_selection.GridSearchCV(tree.DecisionTreeClassifier(), param_grid=param_grid, scoring='roc_auc', cv=cv_split) # submit_dt.fit(data1[data1_x_bin], data1[Target]) # print('Best Parameters: ', submit_dt.best_params_) # 最佳参数: {'criterion': 'gini', 'max_depth': 4, 'random_state': 0} # 将Survived列设置为submit_dt.predict函数的返回值 # data_val['Survived'] = submit_dt.predict(data_val[data1_x_bin]) # Bagging建模 - 使用完整数据集进行建模,提交得分:默认=0.75119,调整后=0.77990 # 使用Bagging分类器进行建模 # submit_bc = ensemble.BaggingClassifier() # submit_bc = model_selection.GridSearchCV(ensemble.BaggingClassifier(), param_grid={'n_estimators':grid_n_estimator, 'max_samples': grid_ratio, 'oob_score': grid_bool, 'random_state': grid_seed}, scoring='roc_auc', cv=cv_split) # submit_bc.fit(data1[data1_x_bin], data1[Target]) # print('Best Parameters: ', submit_bc.best_params_) # 最佳参数: {'max_samples': 0.25, 'n_estimators': 500, 'oob_score': True, 'random_state': 0} # 将Survived列设置为submit_bc.predict函数的返回值 # data_val['Survived'] = submit_bc.predict(data_val[data1_x_bin]) # Extra Tree建模 - 使用完整数据集进行建模,提交得分:默认=0.76555,调整后=0.77990 # 使用Extra Trees分类器进行建模 # submit_etc = ensemble.ExtraTreesClassifier() # submit_etc = model_selection.GridSearchCV(ensemble.ExtraTreesClassifier(), param_grid={'n_estimators': grid_n_estimator, 'criterion': grid_criterion, 'max_depth': grid_max_depth, 'random_state': grid_seed}, scoring='roc_auc', cv=cv_split) # submit_etc.fit(data1[data1_x_bin], data1[Target]) # print('Best Parameters: ', submit_etc.best_params_) # 最佳参数: {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'random_state': 0} # 将Survived列设置为submit_etc.predict函数的返回值 # data_val['Survived'] = submit_etc.predict(data_val[data1_x_bin]) # Random Forest建模 - 使用完整数据集进行建模,提交得分:默认=0.71291,调整后=0.73205 # 使用Random Forest分类器进行建模 # submit_rfc = ensemble.RandomForestClassifier() # submit_rfc = model_selection.GridSearchCV(ensemble.RandomForestClassifier(), param_grid={'n_estimators': grid_n_estimator, 'criterion': grid_criterion, 'max_depth': grid_max_depth, 'random_state': grid_seed}, scoring='roc_auc', cv=cv_split) # submit_rfc.fit(data1[data1_x_bin], data1[Target]) # print('Best Parameters: ', submit_rfc.best_params_) # 最佳参数: {'criterion': 'entropy', 'max_depth': 6, 'n_estimators': 100, 'random_state': 0} # 将Survived列设置为submit_rfc.predict函数的返回值 # data_val['Survived'] = submit_rfc.predict(data_val[data1_x_bin]) # Ada Boosting建模 - 使用完整数据集进行建模,提交得分:默认=0.74162,调整后=0.75119 # 使用Ada Boosting分类器进行建模 # submit_abc = ensemble.AdaBoostClassifier() # submit_abc = model_selection.GridSearchCV(ensemble.AdaBoostClassifier(), param_grid={'n_estimators': grid_n_estimator, 'learning_rate': grid_ratio, 'algorithm': ['SAMME', 'SAMME.R'], 'random_state': grid_seed}, scoring='roc_auc', cv=cv_split) # submit_abc.fit(data1[data1_x_bin], data1[Target]) # print('Best Parameters: ', submit_abc.best_params_) # 最佳参数: {'algorithm': 'SAMME.R', 'learning_rate': 0.1, 'n_estimators': 300, 'random_state': 0} # 将Survived列设置为submit_abc.predict函数的返回值 # data_val['Survived'] = submit_abc.predict(data_val[data1_x_bin]) # Gradient Boosting建模 - 使用完整数据集进行建模,提交得分:默认=0.75119,调整后=0.77033 # 使用Gradient Boosting分类器进行建模 # submit_gbc = ensemble.GradientBoostingClassifier() # submit_gbc = model_selection.GridSearchCV(ensemble.GradientBoostingClassifier(), param_grid={'learning_rate': grid_ratio, 'n_estimators': grid_n_estimator, 'max_depth': grid_max_depth, 'random_state':grid_seed}, scoring='roc_auc', cv=cv_split) # submit_gbc.fit(data1[data1_x_bin], data1[Target]) # print('Best Parameters: ', submit_gbc.best_params_) # 最佳参数: {'learning_rate': 0.25, 'max_depth': 2, 'n_estimators': 50, 'random_state': 0} # 将Survived列设置为submit_gbc.predict函数的返回值 # data_val['Survived'] = submit_gbc.predict(data_val[data1_x_bin]) # Extreme Boosting建模 - 使用完整数据集进行建模,提交得分:默认=0.73684,调整后=0.77990 # 使用Extreme Boosting分类器进行建模 # submit_xgb = XGBClassifier() # submit_xgb = model_selection.GridSearchCV(XGBClassifier(), param_grid={'learning_rate': grid_learn, 'max_depth': [0,2,4,6,8,10], 'n_estimators': grid_n_estimator, 'seed': grid_seed}, scoring='roc_auc', cv=cv_split) # submit_xgb.fit(data1[data1_x_bin], data1[Target]) # print('Best Parameters: ', submit_xgb.best_params_) # 最佳参数: {'learning_rate': 0.01, 'max_depth': 4, 'n_estimators': 300, 'seed': 0} # 将Survived列设置为submit_xgb.predict函数的返回值 # data_val['Survived'] = submit_xgb.predict(data_val[data1_x_bin]) # Hard Voting分类器 - 使用完整数据集进行建模,提交得分:默认=0.75598,调整后=0.77990 # 将Survived列设置为grid_hard.predict函数的返回值 data_val['Survived'] = grid_hard.predict(data_val[data1_x_bin]) # Soft Voting分类器 - 使用完整数据集进行建模,提交得分:默认=0.73684,调整后=0.74162 # 将Survived列设置为vote_soft.predict函数的返回值 # data_val['Survived'] = vote_soft.predict(data_val[data1_x_bin]) # data_val['Survived'] = grid_soft.predict(data_val[data1_x_bin]) # 提交文件 submit = data_val[['PassengerId','Survived']] submit.to_csv("../working/submit.csv", index=False) # 打印验证数据分布 print('Validation Data Distribution: \n', data_val['Survived'].value_counts(normalize=True)) # 随机抽取10个样本 submit.sample(10)
<class 'pandas.core.frame.DataFrame'> RangeIndex: 418 entries, 0 to 417 Data columns (total 21 columns): PassengerId 418 non-null int64 Pclass 418 non-null int64 Name 418 non-null object Sex 418 non-null object Age 418 non-null float64 SibSp 418 non-null int64 Parch 418 non-null int64 Ticket 418 non-null object Fare 418 non-null float64 Cabin 91 non-null object Embarked 418 non-null object FamilySize 418 non-null int64 IsAlone 418 non-null int64 Title 418 non-null object FareBin 418 non-null category AgeBin 418 non-null category Sex_Code 418 non-null int64 Embarked_Code 418 non-null int64 Title_Code 418 non-null int64 AgeBin_Code 418 non-null int64 FareBin_Code 418 non-null int64 dtypes: category(2), float64(2), int64(11), object(6) memory usage: 63.1+ KB None ---------- Validation Data Distribution: 0 0.633971 1 0.366029 Name: Survived, dtype: float64
PassengerId | Survived | |
---|---|---|
113 | 1005 | 1 |
69 | 961 | 1 |
70 | 962 | 1 |
191 | 1083 | 0 |
376 | 1268 | 1 |
37 | 929 | 1 |
46 | 938 | 1 |
236 | 1128 | 0 |
294 | 1186 | 0 |
366 | 1258 | 0 |
数据科学框架的第一次迭代似乎收敛于0.77990的提交准确率。使用相同的数据集和不同的决策树实现(adaboost、随机森林、梯度提升、xgboost等)进行调优,都无法超过0.77990的提交准确率。有趣的是,在这个数据集中,简单的决策树算法具有最佳的默认提交分数,并且通过调优实现了相同的最佳准确率。
虽然在单个数据集上测试少数算法无法得出一般性结论,但对于提到的数据集有几点观察结果:
基于这些观察结果,对于第二次迭代,我将花更多时间在预处理和特征工程上,以更好地对齐CV分数和Kaggle分数,并提高整体准确率。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。