赞
踩
引言
随机森林( random forest) 是一种基于分类树( classification tree) 的算法,它可以用于分类和回归,本文在这里以广西地区1990-2014共25年的GDP数据作为因变量,以INV投资、CON消费、NEX净出口为三个自变量,运用R语言软件做随机森林回归,最终得到三个自变量的相对重要程度。
1 数据
从广西统计年鉴中取得1990-2014年的因变量与自变量数据,放入excel表格中。
2 步骤
2.1 安装randomForest包
在R语言中,randomForest包提供了随机森林的实现,使用randomForest需要先安装这个包,在R的交互命令中使用下面的命令安装:
> install.packages("randomForest")
然后在弹出的镜像列表中选择一个国内的镜像站点就可以自动安装了。
2.2 使用randomForest包
在R的交互命令中引入randomForest:
> library(randomForest)
屏幕上会输出randomForest包的版本信息。
2.3 导入数据
将已经整理好的excel数据放入R语言的workspace中,或将R的工作空间加载为存有excel的文件夹。
将数据导入到R中并查看:
> gxdata
> gxdata
X gdp con inv nex
1 1990 449.06 175.4369 68.5666 8.0611
2 1991
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。