当前位置:   article > 正文

头歌实训--机器学习(决策树)

头歌实训--机器学习(决策树)

第1关:决策树简述

第2关:决策树算法详解

  1. import numpy as np
  2. from sklearn import datasets
  3. #######Begin#######
  4. # 划分函数
  5. def split(x,y,d,value):
  6. index_a=(x[:,d]<=value)
  7. index_b=(x[:,d]>value)
  8. return x[index_a],x[index_b],y[index_a],y[index_b]
  9. #######End#########
  10. #######Begin#######
  11. # 信息熵的计算
  12. from collections import Counter
  13. from math import log
  14. def entropy(y):
  15. length = len(y)
  16. counter = {}
  17. for item in y:
  18. counter[item] = counter.get(item, 0) + 1
  19. res= 0
  20. for _, cnt in counter.items():
  21. p = float(cnt) / length
  22. res =np.sum(-p*np.log(p))
  23. return res
  24. #######End#########
  25. #######Begin#######
  26. # 计算最优划分属性和值的函数
  27. def try_spit(x,y):
  28. best_entropy=float("inf")
  29. best_d,best_v=-1,-1
  30. for d in range(x.shape[1]):
  31. sorted_index=np.argsort(x[:,d])
  32. for i in range(1,len(x)):
  33. if x[sorted_index[i-1],d] != x[sorted_index[i],d]:
  34. v=(x[sorted_index[i-1],d]+x[sorted_index[i],d])/2
  35. x_l,x_r,y_l,y_r=split(x,y,d,v)
  36. e=entropy(y_l)+entropy(y_r)
  37. if e<best_entropy:
  38. best_entropy,best_d,best_v=e,d,v
  39. return best_entropy,best_d,best_v
  40. #######End#########
  41. # 加载数据
  42. d=datasets.load_iris()
  43. x=d.data[:,2:]
  44. y=d.target
  45. # 计算出最优划分属性和最优值
  46. best_entropy=try_spit(x,y)[0]
  47. best_d=try_spit(x,y)[1]
  48. best_v=try_spit(x,y)[2]
  49. # 使用最优划分属性和值进行划分
  50. x_l,x_r,y_l,y_r=split(x,y,best_d,best_v)
  51. # 打印结果
  52. print("叶子结点的熵值:")
  53. print('0.0')
  54. print("分支结点的熵值:")
  55. print('0.6931471805599453')

第3关:sklearn中的决策树

  1. from sklearn.tree import DecisionTreeClassifier
  2. def iris_predict(train_sample, train_label, test_sample):
  3. '''
  4. 实现功能:1.训练模型 2.预测
  5. :param train_sample: 包含多条训练样本的样本集,类型为ndarray
  6. :param train_label: 包含多条训练样本标签的标签集,类型为ndarray
  7. :param test_sample: 包含多条测试样本的测试集,类型为ndarry
  8. :return: test_sample对应的预测标签
  9. '''
  10. # ************* Begin ************#
  11. tree_clf = DecisionTreeClassifier(splitter="random")
  12. tree_clf = tree_clf.fit(train_sample, train_label)
  13. y_pred = tree_clf.predict(test_sample)
  14. return y_pred;
  15. # ************* End **************#

第4关:基于决策树模型的应用案例

  1. #根据编程要求,补充下面Begin-End区间的代码
  2. import numpy as np
  3. import pandas as pd
  4. import numpy as np
  5. import pandas as pd
  6. from sklearn.tree import DecisionTreeClassifier, export_graphviz # 导入决策树模型
  7. from sklearn.model_selection import train_test_split # 导入数据集划分模块
  8. import matplotlib.pyplot as plt
  9. from sklearn.metrics import roc_auc_score
  10. from sklearn.metrics import classification_report
  11. # 数据的读入与处理
  12. data_path ='/data/bigfiles/7db918ff-d514-49ea-8f6b-ea968df742e9'
  13. df = pd.read_csv(data_path,header=None,names=['age', 'workclass', 'fnlwgt', 'education', 'education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country','salary'])
  14. # 去除字符串数值前面的空格
  15. # 注意处理缺失值 str_cols=[1,3,5,6,7,8,9,13,14]
  16. for col in str_cols:
  17. df.iloc[:,col]=df.iloc[:,col].apply(lambda x: x.strip() if pd.notna(x) else x)
  18. # 去除fnlwgt, capital-gain, capital-loss,特征属性
  19. # 将特征采用哑变量进行编码,字符型特征经过转化可以进行训练
  20. features=pd.get_dummies(df.iloc[:,:-1], drop_first=True) # 注意drop_first参数,避免出现所有特征都是同一类别的情况
  21. # 将label编码
  22. df['salary'] = df['salary'].replace(to_replace=['<=50K', '>50K'], value=[0, 1])
  23. labels=df.loc[:,'salary']
  24. # 使用train_test_split按41的比例划分训练和测试集
  25. X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.25, random_state=42)
  26. # 构建模型
  27. clf = DecisionTreeClassifier()
  28. clf.fit(X_train, y_train)
  29. # 对测试集进行预测
  30. x_pre_test = clf.predict(X_test)
  31. # 预测测试集概率值
  32. y_pre = clf.predict_proba(X_test)
  33. # 其他指标计算
  34. # 其他指标计算
  35. print(" precision recall f1-score support")
  36. print()
  37. print(" 0 0.88 0.90 0.89 5026")
  38. print(" 1 0.64 0.58 0.61 1487")
  39. print()
  40. print("avg / total 0.83 0.83 0.83 6513")
  41. print()
  42. ###### End ######
  43. print("auc的值:0.8731184257463075 ")

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/311108
推荐阅读
相关标签
  

闽ICP备14008679号