当前位置:   article > 正文

python数据分析:回归分析(regression analysis)_python regression

python regression

何为回归分析

回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。

回归分析的主要应用场景是进行预测和控制,例如计划制定、KPI制定、目标制定等方面;也可以基于预测的数据与实际数据进行比对和分析,确定事件发展程度并给未来行动提供方向性指导。

常用的回归算法包括线性回归、二项式回归、对数回归、指数回归、核SVM、岭回归、Lasso等。

回归分析相关系数

回归方程一般为y=ax+b的形式,其中a为变量x的回归系数,相关系数为R,判定系数为即R2

  • 回归系数:其绝对值大小能说明自变量与因变量之间的变化比例
  • 判定系数:自变量对因变量的方差解释,为回归平方和与总离差平方和之比值
  • 相关系数:也称解释系数,衡量变量间的相关程度,其本质是线性相关性的判断

ps:

  • 如果有多个自变量的话R2代表的这两个自变量共同影响的结果。假如在线性回归中只有一个自变量,那么判定系数等于相关系数的平方。
  • 回归系数和相关系数大于0,正相关;小于0,负相关。

使用回归模型应该注意自变量的变化,如果新增了自变量,或者训练模型时遗漏了重要变量,这样会导致模型参数有偏差,预测不准确;如果自变量的范围超出了之前训练时的范围,那么原来的模型也不适用。

判定系数经常作为拟合好坏的主要参照指标,当一个新的指标加入模型后发现模型不变,此时无法根据判定系数来反推该指标的重要性程度,例如该指标无效(或有效)。

回归分析算法选择:

  • 最普通的,最基础的,基于为最小二乘法的普通线性回归最合适;适合规律明显,数据结构简单的数据。
  • 如果数据变量少可以通过散点图发现自变量和因变量之间规律,然后确定使用何种回归方法
  • 自变量之间存在较强的共线性,使用对多重共线性处理的算法,如岭回归算法。
  • 如果数据集噪音较多,使用主成分回归
  • 高纬度变量下,使用正则化回归方法效果较好,例如Lasso,Ridge和ElasticNet,或者使用逐步回归从中挑选出影响显著的自变量来建立回归模型。
  • 同时验证多个算法,并想从中选择一个来做做好的你和,使用交叉验证做多个模型效果对比,并通过R-square、Adjusted R-square、AIC、BIC以及各种残差、误差项指标做综合评估。
  • 注重模型的解释性,线性回归、指数回归、对数回归、二项或多项式回归要优于核回归、支持向量回归机等
  • 集成方法,可以使用集成算法对确认的算法做组合使用。

python 代码实现

import numpy as np
import pandas as pd
from sklearn.linear_model import BayesianRidge, LinearRegression, ElasticNet
from sklearn.svm import SVR
from sklearn.ensemble.gradient_boosting import GradientBoostingRegressor   # 集成算法
from sklearn.model_selection import cross_val_score    # 交叉验证
from sklearn.metrics import explained_variance_score, mean_absolute_error, mean_squared_error, r2_score  
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# 数据导入
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv', 
                 usecols=[
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/564087
推荐阅读
相关标签
  

闽ICP备14008679号