当前位置:   article > 正文

随机森林简单回归预测_随机森林回归预测模型

随机森林回归预测模型

随机森林(RandomForest)简单回归预测

随机森林是bagging方法的一种具体实现。它会训练多棵决策树,然后将这些结果融合在一起就是最终的结果。随机森林可以用于分裂,也可以用于回归。主要在于决策树类型的选取,根据具体的任务选择具体类别的决策树。

对于分类问题,一个测试样本会送到每一颗决策树中进行预测,然后投票,得票最多的类为最终的分类结果;

对于回归问题,随机森林的预测结果是所有决策树输出的均值。

本文介绍利用随机森林进行时间序列的简单回归预测,满足大部分科研需求。

介绍

随机森林的优点:

在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合,但是对于小数据集还是有可能过拟合,所以还是要注意;

两个随机性的引入,使得随机森林具有很好的抗噪能力;

它能够处理很高维的数据,并且不用做特征选择,对数据集的适应能力强。既能处理离散性数据,也能处理连续型数据,数据集无需规范化;

在创建随机森林的时候,对generalization error使用的是无偏估计;

训练速度快,可以得到变量重要性排序;

在训练过程中,能够检测到feature间的互影响;

容易做成并行化方法;

实现比较简单

随机森林的缺点:

对于小数据集和低维的数据效果可能不是很好。

整个模型为黑盒,没有很强的解释性。

由于随机森林的两个随机性,导致运行结果不稳定。

数据准备

安装所需要的py库

pip install sklearn

导入所需要的包

  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. from sklearn.ensemble import RandomForestRegressor
  4. from sklearn.model_selection import train_test_split
  5. from sklearn.multioutput import MultiOutputRegressor

​单输出回归

预测给定输入的单个数字输出。

随机构建训练集和测试集

  1. rng = np.random.RandomState(1)
  2. X = np.sort(200 * rng.rand(600, 1) - 100, axis=0)
  3. y = np.array([np.pi * np.sin(X).ravel()]).T
  4. y += (0.5 - rng.rand(*y.shape))
  5. #x和y的shape为(600, 1) (600, 1)
  6. X_train, X_test, y_train, y_test = train_test_split(
  7. X, y, train_size=400, test_size=200, random_state=4)
  8. #X_train, X_test, y_train, y_test的shape
  9. #为(400, 1) (200, 1) (400, 1) (200, 1)

构建模型并进行预测

  1. #定义模型
  2. regr_rf = RandomForestRegressor(n_estimators=100, max_depth=30,
  3. random_state=2)
  4. # 集合模型
  5. regr_rf.fit(X_train, y_train)
  6. # 利用预测
  7. y_rf = regr_rf.predict(X_test)
  8. #评价
  9. print(regr_rf.score(X_test, y_test))

作图

  1. plt.figure()
  2. s = 50
  3. a = 0.4
  4. plt.scatter(X_test, y_test, edgecolor='k',
  5. c="navy", s=s, marker="s", alpha=a, label="Data")
  6. plt.scatter(X_test, y_rf, edgecolor='k',
  7. c="c", s=s, marker="^", alpha=a,
  8. label="RF score=%.2f" % regr_rf.score(X_test, y_test))
  9. plt.xlim([-6, 6])
  10. plt.xlabel("X_test")
  11. plt.ylabel("target")
  12. plt.title("Comparing random forests and the test")
  13. plt.legend()
  14. plt.show()

多输出回归

根据输入预测两个或多个数字输出。

随机构建训练集和测试集,这里构建的是一个x对应两个y

  1. rng = np.random.RandomState(1)
  2. X = np.sort(200 * rng.rand(600, 1) - 100, axis=0)
  3. y = np.array([np.pi * np.sin(X).ravel(), np.pi * np.cos(X).ravel()]).T
  4. y += (0.5 - rng.rand(*y.shape))
  5. #x和y的shape为(600, 1) (600, 2)
  6. X_train, X_test, y_train, y_test = train_test_split(
  7. X, y, train_size=400, test_size=200, random_state=4)
  8. #X_train, X_test, y_train, y_test的shape
  9. #为(400, 1) (200, 2) (400, 1) (200, 2)

构建模型并进行预测

这里尝试了利用随机森林和包装器类两种方法

  1. #定义模型
  2. max_depth = 30
  3. regr_multirf = MultiOutputRegressor(RandomForestRegressor(n_estimators=100, max_depth=max_depth, random_state=0))
  4. # 拟合模型
  5. regr_multirf.fit(X_train, y_train)
  6. #定义模型
  7. regr_rf = RandomForestRegressor(n_estimators=100, max_depth=max_depth,
  8. random_state=2)
  9. # 拟合
  10. regr_rf.fit(X_train, y_train)
  11. #预测
  12. y_multirf = regr_multirf.predict(X_test)
  13. y_rf = regr_rf.predict(X_test)

作图

  1. plt.figure()
  2. s = 50
  3. a = 0.4
  4. plt.scatter(y_test[:, 0], y_test[:, 1], edgecolor='k',
  5. c="navy", s=s, marker="s", alpha=a, label="Data")
  6. plt.scatter(y_multirf[:, 0], y_multirf[:, 1], edgecolor='k',
  7. c="cornflowerblue", s=s, alpha=a,
  8. label="Multi RF score=%.2f" % regr_multirf.score(X_test, y_test))
  9. plt.scatter(y_rf[:, 0], y_rf[:, 1], edgecolor='k',
  10. c="c", s=s, marker="^", alpha=a,
  11. label="RF score=%.2f" % regr_rf.score(X_test, y_test))
  12. plt.xlim([-6, 6])
  13. plt.ylim([-6, 6])
  14. plt.xlabel("target 1")
  15. plt.ylabel("target 2")
  16. plt.title("Comparing random forests and the multi-output meta estimator")
  17. plt.legend()
  18. plt.show()

 欢迎关注vx公众号遥感迷,更多东西静待发布

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/131435
推荐阅读
相关标签
  

闽ICP备14008679号