赞
踩
回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。
回归分析的主要应用场景是进行预测和控制,例如计划制定、KPI制定、目标制定等方面;也可以基于预测的数据与实际数据进行比对和分析,确定事件发展程度并给未来行动提供方向性指导。
常用的回归算法包括线性回归、二项式回归、对数回归、指数回归、核SVM、岭回归、Lasso等。
回归方程一般为y=ax+b的形式,其中a为变量x的回归系数,相关系数为R,判定系数为即R2
ps:
使用回归模型应该注意自变量的变化,如果新增了自变量,或者训练模型时遗漏了重要变量,这样会导致模型参数有偏差,预测不准确;如果自变量的范围超出了之前训练时的范围,那么原来的模型也不适用。
判定系数经常作为拟合好坏的主要参照指标,当一个新的指标加入模型后发现模型不变,此时无法根据判定系数来反推该指标的重要性程度,例如该指标无效(或有效)。
import numpy as np
import pandas as pd
from sklearn.linear_model import BayesianRidge, LinearRegression, ElasticNet
from sklearn.svm import SVR
from sklearn.ensemble.gradient_boosting import GradientBoostingRegressor # 集成算法
from sklearn.model_selection import cross_val_score # 交叉验证
from sklearn.metrics import explained_variance_score, mean_absolute_error, mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# 数据导入
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv',
usecols=[
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。