当前位置:   article > 正文

人工智能—线性回归模型笔记

人工智能—线性回归模型笔记

1、准备阶段

  1. import pandas as pd
  2. %matplotlib inline
  3. data = pd.read_csv("boston_housing.csv")
  4. data.head()
  5. data.isnull().sum()
  6. # 从原始数据中分离输入特征x和输出y
  7. y = data['MEDV'].values
  8. # 默认删除行,列需要加axis = 1
  9. X = data.drop('MEDV', axis = 1)

2、数据处理

  1. ‘’‘
  2. 当数据量比较大时,可用train_test_split从训练集中分出一部分做校验集; 样本数目较少时,建议用交叉验证 在线性回归中,留一交叉验证有简便计算方式,无需显式交叉验证
  3. ’‘’
  4. #将数据分割训练数据与测试数据
  5. from sklearn.model_selection import train_test_split
  6. # 随机采样20%的数据构建测试样本,其余作为训练样本
  7. X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33, test_size=0.2)
  8. X_train.shape
  9. # 数据标准化
  10. from sklearn.preprocessing import StandardScaler
  11. # 分别初始化对特征和目标值的标准化器
  12. ss_X = StandardScaler()
  13. ss_y = StandardScaler()
  14. # 分别对训练和测试数据的特征以及目标值进行标准化处理
  15. X_train = ss_X.fit_transform(X_train)
  16. X_test = ss_X.transform(X_test)
  17. #对y做标准化不是必须
  18. #对y标准化的好处是不同问题的w差异不太大,同时正则参数的范围也有限
  19. y_train = ss_y.fit_transform(y_train.reshape(-1, 1))
  20. y_test = ss_y.transform(y_test.reshape(-1, 1))

3、普通的线性模型(可用于数据量较小的情况)

  1. # 线性回归
  2. #class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)
  3. from sklearn.linear_model import LinearRegression
  4. # 使用默认配置初始化
  5. lr = LinearRegression()
  6. # 训练模型参数
  7. lr.fit(X_train, y_train)
  8. # 预测
  9. y_test_pred_lr = lr.predict(X_test)
  10. y_train_pred_lr = lr.predict(X_train)
  11. columns = X.columns
  12. # 看看各特征的权重系数,系数的绝对值大小可视为该特征的重要性
  13. fs = pd.DataFrame({"columns":list(columns), "coef":list((lr.coef_.T))})
  14. fs.sort_values(by=['coef'],ascending=False)
  15. from sklearn.metrics import r2_score #评价回归预测模型的性能
  16. import matplotlib.pyplot as plt
  17. # 使用r2_score评价模型在测试集和训练集上的性能,并输出评估结果
  18. #测试集
  19. print('The r2 score of LinearRegression on test is',r2_score(y_test, y_test_pred_lr))
  20. #训练集
  21. print('The r2 score of LinearRegression on train is',r2_score(y_train, y_train_pred_lr))
  22. #在训练集上观察预测残差的分布,看是否符合模型假设:噪声为0均值的高斯噪声
  23. f, ax = plt.subplots(figsize=(7, 5))
  24. f.tight_layout()
  25. ax.hist(y_train - y_train_pred_lr,bins=40, label='Residuals Linear', color='b', alpha=.5);
  26. ax.set_title("Histogram of Residuals")
  27. ax.legend(loc='best');
  28. #还可以观察预测值与真值的散点图
  29. plt.figure(figsize=(4, 3))
  30. plt.scatter(y_train, y_train_pred_lr)
  31. plt.plot([-3, 3], [-3, 3], '--k') #数据已经标准化,3倍标准差即可
  32. plt.axis('tight')
  33. plt.xlabel('True price')
  34. plt.ylabel('Predicted price')
  35. plt.tight_layout()

4、线性模型,随机梯度下降优化模型参数

  1. # 线性模型,随机梯度下降优化模型参数
  2. # 随机梯度下降一般在大数据集上应用
  3. from sklearn.linear_model import SGDRegressor
  4. # 使用默认配置初始化线
  5. sgdr = SGDRegressor(max_iter=1000)
  6. # 训练:参数估计
  7. sgdr.fit(X_train, y_train)
  8. # 预测
  9. #sgdr_y_predict = sgdr.predict(X_test)
  10. # 输出给参数的权重
  11. sgdr.coef_
  12. # 使用SGDRegressor模型自带的评估模块(评价准则为r2_score),并输出评估结果
  13. print('The value of default measurement of SGDRegressor on test is',sgdr.score(X_test, y_test))
  14. print('The value of default measurement of SGDRegressor on train is',sgdr.score(X_train, y_train))

5、岭回归/L2正则

  1. #岭回归/L2正则
  2. #class sklearn.linear_model.RidgeCV(alphas=(0.1, 1.0, 10.0), fit_intercept=True,
  3. # normalize=False, scoring=None, cv=None, gcv_mode=None,
  4. # store_cv_values=False)
  5. from sklearn.linear_model import RidgeCV
  6. #设置超参数(正则参数)范围
  7. alphas = [ 0.01, 0.1, 1, 10,100]
  8. #生成一个RidgeCV实例
  9. ridge = RidgeCV(alphas=alphas, store_cv_values=True)
  10. #模型训练
  11. ridge.fit(X_train, y_train)
  12. #预测
  13. y_test_pred_ridge = ridge.predict(X_test)
  14. y_train_pred_ridge = ridge.predict(X_train)
  15. # 评估,使用r2_score评价模型在测试集和训练集上的性能
  16. print('The r2 score of RidgeCV on test is', r2_score(y_test, y_test_pred_ridge))
  17. print('The r2 score of RidgeCV on train is', r2_score(y_train, y_train_pred_ridge))
  18. print('alpha is:', ridge.alpha_)
  19. # 看看各特征的权重系数,系数的绝对值大小可视为该特征的重要性
  20. fs = pd.DataFrame({"columns":list(columns), "coef_lr":list((lr.coef_.T)), "coef_ridge":list((ridge.coef_.T))})
  21. fs.sort_values(by=['coef_lr'],ascending=False)

6、Lasso/L1正则

  1. #### Lasso/L1正则
  2. # class sklearn.linear_model.LassoCV(eps=0.001, n_alphas=100, alphas=None, fit_intercept=True,
  3. # normalize=False, precompute=’auto’, max_iter=1000,
  4. # tol=0.0001, copy_X=True, cv=None, verbose=False, n_jobs=1,
  5. # positive=False, random_state=None, selection=’cyclic’)
  6. from sklearn.linear_model import LassoCV
  7. #设置超参数搜索范围
  8. #alphas = [ 0.01, 0.1, 1, 10,100]
  9. #生成一个LassoCV实例
  10. #lasso = LassoCV(alphas=alphas)
  11. lasso = LassoCV()
  12. #训练(内含CV)
  13. lasso.fit(X_train, y_train)
  14. #测试
  15. y_test_pred_lasso = lasso.predict(X_test)
  16. y_train_pred_lasso = lasso.predict(X_train)
  17. # 评估,使用r2_score评价模型在测试集和训练集上的性能
  18. print('The r2 score of LassoCV on test is',r2_score(y_test, y_test_pred_lasso))
  19. print('The r2 score of LassoCV on train is',r2_score(y_train, y_train_pred_lasso))
  20. #打印超参数
  21. print ('alpha is:', lasso.alpha_)
  22. # 看看各特征的权重系数,系数的绝对值大小可视为该特征的重要性
  23. fs = pd.DataFrame({"columns":list(columns), "coef_lr":list((lr.coef_.T)), "coef_ridge":list((ridge.coef_.T)), "coef_lasso":list((lasso.coef_.T))})
  24. fs.sort_values(by=['coef_lr'],ascending=False)

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/566669
推荐阅读
相关标签
  

闽ICP备14008679号