当前位置:   article > 正文

【Python机器学习】决策树算法对泰坦尼克号人员幸存预测_决策树泰坦尼克号生存预测python

决策树泰坦尼克号生存预测python

1.介绍

使用python的机器学习包sklearn完成试验,IDE是jupyter notebook。

2.代码

  1. # 导入数据集
  2. import pandas as pd
  3. datas_train = pd.read_csv('TTNKHP/train.csv') # 训练集数据
  4. # 查看数据前几条
  5. datas_train.head()
  6. # 收集特征值和目标值
  7. x = datas_train[['Pclass','Sex','Age','SibSp','Parch']]
  8. y = datas_train['Survived']
  9. # 填充缺失值
  10. x['Age'].fillna(x['Age'].mean(),inplace=True)
  11. # 转为字典类型
  12. x = x.to_dict(orient='records')
  13. # 数据集划分
  14. from sklearn.model_selection import train_test_split
  15. x_train,x_test,y_train,y_test = train_test_split(x,y)
  16. # 特征抽取
  17. from sklearn.feature_extraction import DictVectorizer
  18. transter = DictVectorizer()
  19. x_train= transter.fit_transform(x_train)
  20. x_test = transter.transform(x_test)
  21. # 使用网格搜索和交叉验证进行调参
  22. from sklearn.tree import DecisionTreeClassifier
  23. medicter = DecisionTreeClassifier(criterion='entropy')
  24. from sklearn.model_selection import GridSearchCV
  25. GSCV = GridSearchCV(medicter,param_grid={'max_depth':[1,2,3,4,5,6,7,8,9,10,11,12,13]},cv=4)
  26. GSCV.fit(x_train,y_train)
  27. # 输出信息
  28. GSCV.score(x_test,y_test)
  29. GSCV.best_params_
  30. #0.8340807174887892
  31. #{'max_depth': 4}

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/750426
推荐阅读
相关标签
  

闽ICP备14008679号