当前位置:   article > 正文

机器学习实验五:逻辑回归

机器学习实验五:逻辑回归

目录

一、引言

二、逻辑回归

2.1 逻辑回归原理

2.2 预测函数(sigmoid函数)

2.3 损失函数

2.4 梯度下降求解最小值

三、案例

3.1 导入库及数据集

3.2 特征与标签组合的散点可视化

3.3 逻辑回归模型

 四、总结

4.1 线性回归与逻辑回归的区别

4.2 逻辑回归优缺点

4.3 小结


一、引言

      逻辑回归也被称为广义线性回归模型,它与线性回归模型最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是逻辑回归。
   逻辑回归(Logistic Regression)虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)。它是机器学习中最常见的一种用于二分类的算法模型,由于其数学原理简单易懂,作用高效,其实际应用非常广泛。

二、逻辑回归

2.1 逻辑回归原理

Regression 常规步骤:

  • 寻找h函数(即预测函数,用来预测输入数据的判断结果)
  • 构造J函数(损失函数,该函数表示预测的输出与训练数据类别之间的偏差)
  • 想办法使得J函数最小并求得回归参数(θ)

    机器学习是数据驱动的算法,数据驱动=数据+模型,模型就是输入到输出的映射关系。模型=假设函数(不同的学习方式)+优化

    线性回归模型是一种用于预测连续变量的统计方法,它通过构建一个线性方程来拟合数据点。这个线性方程:f\left ( x \right )=w^{t}*x+b,w和b都是通过最小二乘法得到的,在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧氏距离之和最小。我们只需要将函数E_{w,b}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}求导并令导数为0即可求解出w和b的最优解。

    线性回归可以预测连续值,但是不能解决分类问题,我们需要根据预测的结果判定其属于正类还是负类。所以逻辑回归就是将线性回归的 \left ( -\infty ,+\infty \right )结果,通过sigmoid函数映射到(0,1)之间,从而解决分类问题。

2.2 预测函数(sigmoid函数)

公式:

g\left ( z \right )=\frac{1}{1+e^{-z}}

    观察该图像,自变量取值范围是\left ( -\infty ,+\infty \right ),因变量取值范围为(0,1),意思是无论自变量取值多少,都可以通过sigmoid函数映射到(0,1)之间。sigmoid函数,会把线性回归的结果映射到(0,1)之间,假设0.5为阈值,默认会把小于0.5的为0,大于0.5的为1,这样就可以分类了 。

通过sigmoid来构造预测函数为:

p=\sigma \left ( w^{t}x+b \right )=\frac{1}{1+e^{-w^{t}+b}}

函数的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:

2.3 损失函数

     在机器学习和优化问题中,损失函数(或目标函数)具有重要的意义。它用于衡量模型预测结果与实际结果之间的差异,从而反映模型的性能和准确度。线性回归使用最小二乘误差作为损失函数。然而,对于逻辑回归,它不再是可能的,最大似然法是逻辑回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是大样本数据中参数的估计稳定、偏差小、估计方差小。。逻辑回归的损失,称之为对数似然损失,公式如下:

cost=\left ( h_{\theta \left ( x \right )},y \right )=y\log \left ( h_{\theta }\left ( x^{i} \right ) \right )+\left ( 1-y \right )\log \left ( 1-h_{\theta }\left ( x\right ) \right )

   这个式子也不陌生,将上面整合的式子,取对数,原先是相乘,取对数之后会相加,指数也可以移到前面。假定样本与样本之间相互独立,那么整个样本集生成的概率即为所有样本生成概率的乘积,再将公式对数化,便可得到如下公式:

J\left ( \theta \right )=-\frac{1}{m}\sum_{i=1}^{m}\left [ y^{i}\log \left ( \sigma \left (wx_{i}^{b} \right ) \right )+\left ( 1-y^{i} \right )\log \left ( 1-\sigma \left ( wx_{i}^{b} \right )\right ) \right ]

   我们要找到最优的w和b,使得损失函数J(w)最小,我们使用梯度下降法来求解。

2.4 梯度下降求解最小值

     梯度下降(Gradient Descent)是一种常用的优化算法,用于最小化损失函数或目标函数。它是一种迭代的优化方法,通过不断更新参数的值,使得损失函数最小化或目标函数最大化。梯度下降的基本思想是沿着损失函数或目标函数的负梯度方向进行参数更新。梯度可以理解为函数在某一点的变化率或斜率,负梯度方向表示函数下降的最快方向。因此,通过不断沿着负梯度方向迭代更新参数,可以逐步接近损失函数的最小值或目标函数的最大值。具体推理过程如下图:

θ更新过程可以写成:

图源自网络

三、案例

3.1 导入库及数据集
  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. import seaborn as sns
  4. import pandas as pd
  5. from mpl_toolkits.mplot3d import Axes3D
  6. from sklearn.datasets import load_iris
  7. from sklearn.linear_model import LogisticRegression
  8. from sklearn.model_selection import train_test_split
  9. from sklearn.metrics import mean_squared_error
  10. from sklearn import metrics
  11. data = load_iris() # 数据集
  12. iris_target = data.target # 标签
  13. # 将所需的数据以及特征名提取出来转换成DataFrame类型,方便后面处理
  14. iris_df = pd.DataFrame(data=data.data, columns=data.feature_names)

结果:

3.1.1 查看关键字及数据集描述
  1. print(data.keys())
  2. print(data["DESCR"])

结果:

iris数据集共有150个样本,三个种类,每个类有五十个样本

三个种类:class:Iris-Setosa(标签0)Iris-Versicolour(标签1)Iris-Virginica(标签2)

每个样本特征向量为4个:Attribute Information:sepal length in cm(花萼长度)sepal width in cm(花萼宽度)petal length in cm(花瓣长度)petal width in cm(花瓣宽度)

3.2 特征与标签组合的散点可视化
3.2.1 2D散点图
  1. plt.plot(iris_all[iris_all["target"]==0]["petal length (cm)"],iris_all[iris_all["target"]==0]["petal width (cm)"],"rs",label="Setosa")
  2. plt.plot(iris_all[iris_all["target"]==1]["petal length (cm)"],iris_all[iris_all["target"]==1]["petal width (cm)"],"bx",label="Versicolour")
  3. plt.plot(iris_all[iris_all["target"]==2]["petal length (cm)"],iris_all[iris_all["target"]==2]["petal width (cm)"],"go",label="Virginica")
  4. plt.xlabel("petal length (cm)")
  5. plt.ylabel("petal width (cm)")
  6. plt.legend()
  7. plt.rcParams["font.sans-serif"]="simHei"
  8. plt.show()

结果:

3.2.2 sns.pairplot展现变量两两之间的关系
  1. sns.pairplot(data=iris_all,hue='target', palette="coolwarm")
  2. plt.show()

结果:

输出结果如上。可以看到每两个字段对应的三种花之间的关联,三条曲线重叠的范围越多,说明彼此之间交叉混合的数据越多,凭借着这两个字段来分别三种花的难度越大。

3.3 逻辑回归模型
3.3.1  创建训练集和测试集
  1. iris_df_part = iris_df.iloc[:100]
  2. iris_target_part = iris_target[:100]
  3. x_train, x_test, y_train, y_test = train_test_split(iris_df_part, iris_target_part, test_size = 0.2, random_state =180)
  4. X_train,X_test,Y_train,Y_test=train_test_split(iris_df,iris_target,test_size=0.2,random_state=180)
3.3.2 训练逻辑回归二分类
  1. # 训练逻辑回归二分类模型
  2. def basic2_logosticregression(x_train, x_test, y_train, y_test):
  3. model=LogisticRegression(random_state=0, solver='lbfgs')
  4. model.fit(x_train,y_train)
  5. y_train_pre=model.predict(x_train)
  6. y_test_pre=model.predict(x_test)
3.3.3  预测概率以及混淆矩阵可视化

利用 predict_proba 函数预测其概率:

  1. train_predict_proba = model.predict_proba(x_train)
  2. test_predict_proba = model.predict_proba(x_test)
  3. print('测试预测每一类的概率:\n',test_predict_proba)

以上步骤和线性回归模型分析过程一模一样,至于逻辑回归区别就在于最后的分类上面,需要利用预测的结果,借助混淆矩阵进行可视化展示: 

  1. MSE_train=mean_squared_error(y_train,y_train_pre)
  2. MSE_test=mean_squared_error(y_test,y_test_pre)
  3. confusion_matrix_result = metrics.confusion_matrix(y_test_pre,y_test)
  4. print('混淆矩阵结果:\n',confusion_matrix_result)
  5. plt.figure(figsize=(8, 6))
  6. sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
  7. plt.xlabel('预测的标签')
  8. plt.ylabel('实际的标签')
  9. print("权重w:"+ str(model.coef_))
  10. print("截距w0:"+ str(model.intercept_))
  11. print("训练集均方误差:"+str(MSE_train))
  12. print("测试集均方误差:"+str(MSE_test))
  13. print("score_train: "+str(model.score(x_train,y_train)))
  14. print("score_test: "+str(model.score(x_test,y_test)))

结果:

 四、总结

4.1 线性回归与逻辑回归的区别

(1)逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。

(2)逻辑回归和线性回归首先都是广义的线性回归,其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。

(3)逻辑回归的模型本质上是一个线性回归模型,逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式,sigmoid可以轻松处理0/1分类问题

4.2 逻辑回归优缺点

优点:

  • 适合分类场景
  • 计算代价不高,容易理解实现。
  • 不用事先假设数据分布,这样避免了假设分布不准确所带来的问题。
  • 不仅预测出类别,还可以得到近似概率预测。
  • 目标函数任意阶可导。

缺点:

  • 容易欠拟合,分类精度不高。
  • 数据特征有缺失或者特征空间很大时表现效果并不好。
4.3 小结

     通过此处实验,让我对逻辑回归有了深刻理解,掌握了逻辑回归工作原理以及它与线性回归的区别。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/776214
推荐阅读
相关标签
  

闽ICP备14008679号