当前位置:   article > 正文

机器学习(实战)泰坦尼克号(游客存活率预估)_数据集怎么设置特征值和目标值

数据集怎么设置特征值和目标值

目录

一、读取数据

二、设置特征值和目标值

三、数据处理

1、缺失值处理

2、特征值转换为字典

3、划分数据集

四、特征工程(字典特征值提取)

五、获取决策树预估器,训练

六、模型评估

方法一:比对

方法二:计算得分

总代码


一、读取数据

资源下载链接1(推荐):https://download.csdn.net/download/great_yzl/22363793

资源下载链接2(不推荐):

https://pan.baidu.com/s/17DeVm48VRG0tlEzQM0KfSA 
提取码:gx4a

  1. # 1、读取数据
  2. data = pd.read_csv('titanic.csv')

二、设置特征值和目标值

  1. # 2、设置特征值和目标值
  2. train = data[['pclass', 'age', 'room', 'sex']]
  3. test = list(data['survived'])

三、数据处理

1、缺失值处理

 可以看出来,上面这些明显是缺失了一些数据,这样在后面运行的时候会报错。

  1. # 3-1、缺失值处理
  2. train['age'].fillna(train['age'].mean(), inplace=True)
  3. train['room'].fillna(train['room'][0], inplace=True)

2、特征值转换为字典

  1. # 3-2、特征值转换为字典
  2. train = train.to_dict(orient='records')
  3. print(train)

3、划分数据集

  1. # 4、划分数据集
  2. train_data, test_data, train_target, test_target = train_test_split(train, test)

四、特征工程(字典特征值提取)

  1. # 4、特征工程(字典特征值提取)
  2. transfer = DictVectorizer()
  3. train_data = transfer.fit_transform(train_data)
  4. test_data = transfer.transform(test_data)
  5. # print(train_data)

五、获取决策树预估器,训练

  1. # 6、决策树预估器,训练
  2. estimator = DecisionTreeClassifier()
  3. estimator.fit(train_data, train_target)

六、模型评估

方法一:比对

  1. # 方法一:比对
  2. predict = estimator.predict(test_data)
  3. print(predict == test_target)

方法二:计算得分

  1. # 方法二:计算分数(正确率)
  2. score = estimator.score(test_data, test_target)
  3. print('准确率为:', score)

总代码

  1. # 泰坦尼克号(游客存活率预估)
  2. import pandas as pd
  3. from sklearn.model_selection import train_test_split
  4. from sklearn.feature_extraction import DictVectorizer
  5. from sklearn.tree import DecisionTreeClassifier
  6. # 1、读取数据
  7. data = pd.read_csv('titanic.csv')
  8. # print(data)
  9. # 2、设置特征值和目标值
  10. train = data[['pclass', 'age', 'room', 'sex']]
  11. test = list(data['survived'])
  12. # 3、数据处理
  13. # 3-1、缺失值处理
  14. train['age'].fillna(train['age'].mean(), inplace=True)
  15. train['room'].fillna(train['room'][0], inplace=True)
  16. # 3-2、特征值转换为字典
  17. train = train.to_dict(orient='records')
  18. # 3-3、划分数据集
  19. train_data, test_data, train_target, test_target = train_test_split(train, test)
  20. # print(train_data)
  21. # 4、特征工程(字典特征值提取)
  22. transfer = DictVectorizer()
  23. train_data = transfer.fit_transform(train_data)
  24. test_data = transfer.transform(test_data)
  25. # print(train_data)
  26. # 5、决策树预估器,训练
  27. estimator = DecisionTreeClassifier()
  28. estimator.fit(train_data, train_target)
  29. # 6、模型评估
  30. # 方法一:比对
  31. predict = estimator.predict(test_data)
  32. print(predict == test_target)
  33. # 方法二:计算分数(正确率)
  34. score = estimator.score(test_data, test_target)
  35. print('准确率为:', score)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/804808
推荐阅读
相关标签
  

闽ICP备14008679号