当前位置:   article > 正文

机器学习----集成学习----随机森林_随机森林与决策树的应用范围

随机森林与决策树的应用范围

目录

1、决策树

2.随机森林

2.1 随机森林简介

2.2 随机森林优缺点

3.sklearn中随机森林参数简介

4. 随机森林应用场景

5、随机森林源码


1、决策树

1.决策树与随机森林都属于机器学习中监督学习的范畴,主要用于分类问题。
决策树算法有这几种:ID3、C4.5、CART,基于决策树的算法有bagging、随机森林、GBDT等。
决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或叫特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策。新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策的算法。
 

2.随机森林

2.1 随机森林简介

上述已经提到,随机森林的基本思想为: 生成n棵决策树,然后这n棵决策树进行投票或者平均得出最终结果。而每棵树生成的方式为随机选取样本、随机地选择特征。下面为随机森林的算法:

2.2 随机森林优缺点

优点:

    具有极高的准确率
    随机性的引入,使得随机森林不容易过拟合
    随机性的引入,使得随机森林有很好的抗噪声能力
    能处理很高维度的数据,并且不用做特征选择
    既能处理离散型数据,也能处理连续型数据,数据集无需规范化
    训练速度快,可以得到变量重要性排序
    容易实现并行化

缺点:

    当随机森林中的决策树个数很多时,训练时需要的空间和时间会较大
    随机森林模型还有许多不好解释的地方,有点算个黑盒模型
 

3.sklearn中随机森林参数简介

4. 随机森林应用场景

数据维度相对低(几十维),同时对准确性有较高要求时。因为不需要很多参数调整就可以达到不错的效果,基本上不知道用什么方法的时候都可以先试一下随机森林。

5、随机森林源码

  1. # -*- coding: utf-8 -*-
  2. import numpy as np
  3. from decision_tree_model import ClassificationTree
  4. from sklearn import datasets
  5. from sklearn.model_selection import train_test_split
  6. class RandomForest():
  7. """Random Forest classifier. Uses a collection of classification trees that
  8. trains on random subsets of the data using a random subsets of the features.
  9. Parameters:
  10. -----------
  11. n_estimators: int
  12. 树的数量
  13. The number of classification trees that are used.
  14. max_features: int
  15. 每棵树选用数据集中的最大的特征数
  16. The maximum number of features that the classification trees are allowed to
  17. use.
  18. min_samples_split: int
  19. 每棵树中最小的分割数,比如 min_samples_split = 2表示树切到还剩下两个数据集时就停止
  20. The minimum number of samples needed to make a split when building a tree.
  21. min_gain: float
  22. 每棵树切到小于min_gain后停止
  23. The minimum impurity required to split the tree further.
  24. max_depth: int
  25. 每棵树的最大层数
  26. The maximum depth of a tree.
  27. """
  28. def __init__(self, n_estimators=100, min_samples_split=2, min_gain=0,
  29. max_depth=float("inf"), max_features=None):
  30. self.n_estimators = n_estimators #树的数量
  31. self.min_samples_split = min_samples_split #每棵树中最小的分割数,比如 min_samples_split = 2表示树切到还剩下两个数据集时就停止
  32. self.min_gain = min_gain #每棵树切到小于min_gain后停止
  33. self.max_depth = max_depth #每棵树的最大层数
  34. self.max_features = max_features #每棵树选用数据集中的最大的特征数
  35. self.trees = []
  36. # 建立森林(bulid forest)
  37. for _ in range(self.n_estimators):
  38. tree = ClassificationTree(min_samples_split=self.min_samples_split, min_impurity=self.min_gain,
  39. max_depth=self.max_depth)
  40. self.trees.append(tree)
  41. def fit(self, X, Y):
  42. # 训练,每棵树使用随机的数据集(bootstrap)和随机的特征
  43. # every tree use random data set(bootstrap) and random feature
  44. sub_sets = self.get_bootstrap_data(X, Y)
  45. n_features = X.shape[1]
  46. if self.max_features == None:
  47. self.max_features = int(np.sqrt(n_features))
  48. for i in range(self.n_estimators):
  49. # 生成随机的特征
  50. # get random feature
  51. sub_X, sub_Y = sub_sets[i]
  52. idx = np.random.choice(n_features, self.max_features, replace=True)
  53. sub_X = sub_X[:, idx]
  54. self.trees[i].fit(sub_X, sub_Y)
  55. self.trees[i].feature_indices= idx
  56. print("tree", i, "fit complete")
  57. def predict(self, X):
  58. y_preds = []
  59. for i in range(self.n_estimators):
  60. idx = self.trees[i].feature_indices
  61. sub_X = X[:, idx]
  62. y_pre = self.trees[i].predict(sub_X)
  63. y_preds.append(y_pre)
  64. y_preds = np.array(y_preds).T
  65. y_pred = []
  66. for y_p in y_preds:
  67. # np.bincount()可以统计每个索引出现的次数
  68. # np.argmax()可以返回数组中最大值的索引
  69. # cheak np.bincount() and np.argmax() in numpy Docs
  70. y_pred.append(np.bincount(y_p.astype('int')).argmax())
  71. return y_pred
  72. def get_bootstrap_data(self, X, Y):
  73. # 通过bootstrap的方式获得n_estimators组数据
  74. # get int(n_estimators) datas by bootstrap
  75. m = X.shape[0] #行数
  76. Y = Y.reshape(m, 1)
  77. # 合并X和Y,方便bootstrap (conbine X and Y)
  78. X_Y = np.hstack((X, Y)) #np.vstack():在竖直方向上堆叠/np.hstack():在水平方向上平铺
  79. np.random.shuffle(X_Y) #随机打乱
  80. data_sets = []
  81. for _ in range(self.n_estimators):
  82. idm = np.random.choice(m, m, replace=True) #在range(m)中,有重复的选取 m个数字
  83. bootstrap_X_Y = X_Y[idm, :]
  84. bootstrap_X = bootstrap_X_Y[:, :-1]
  85. bootstrap_Y = bootstrap_X_Y[:, -1:]
  86. data_sets.append([bootstrap_X, bootstrap_Y])
  87. return data_sets
  88. if __name__ == '__main__':
  89. data = datasets.load_digits()
  90. X = data.data
  91. y = data.target
  92. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=2)
  93. print("X_train.shape:", X_train.shape)
  94. print("Y_train.shape:", y_train.shape)
  95. clf = RandomForest(n_estimators=100)
  96. clf.fit(X_train, y_train)
  97. y_pred = clf.predict(X_test)
  98. accuracy = accuracy_score(y_test, y_pred)
  99. print('y_test:{}\ty_pred:{}'.format(y_test, y_pred))
  100. print("Accuracy:", accuracy)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/97716
推荐阅读
相关标签
  

闽ICP备14008679号