当前位置:   article > 正文

机器学习——逻辑回归算法实验

机器学习——逻辑回归算法实验

目录

一、算法概述

二、算法原理

1.Sigmoid函数

2.线性回归模型

3.概率预测

三、算法步骤

1.选择预测函数

2.构造损失函数

3.优化算法

四、算法实现

1.引用的库

2.设置训练集并计算准确度

3.计算损失值(逻辑回归模型)

4.绘制决策图

5.完整代码展示

6.运行结果图

五、实验小结


一、算法概述

        逻辑回归,虽然名字中包含“回归”,但实际上是一种分类算法,主要用于处理二分类问题。它的基本原理是通过一个称为“逻辑函数”或“Sigmoid函数”的数学函数,将输入的特征向量映射到一个概率值,该概率值用于描述样本属于正类的可能性。

二、算法原理

  1. Sigmoid函数:逻辑回归的核心是Sigmoid函数,它将线性回归的输出值映射到(0, 1)区间,从而得到样本属于正类的概率。Sigmoid函数的公式为:(g(z) = \frac{1}{1+e^{-z}}),其中(z)是输入的特征向量和对应的权重的线性组合。
  2. 线性回归模型:逻辑回归基于线性回归模型,通过权重(或称为系数)表示每个特征对分类结果的重要性。线性回归方程可以表示为:(z = w_1x_1 + w_2x_2 + ... + w_nx_n + b),其中(w_i)是权重,(x_i)是特征值,(b)是偏置项。
  3. 概率预测:将线性回归的输出值代入Sigmoid函数,得到样本属于正类的概率。通常,当概率值大于或等于某个阈值(如0.5)时,将样本预测为正类;否则,预测为负类。

三、算法步骤

1.Sigmoid函数

        逻辑回归的核心是Sigmoid函数,它将线性回归的输出值映射到(0, 1)区间,从而得到样本属于正类的概率。Sigmoid函数的公式为:(g(z) = \frac{1}{1+e^{-z}}),其中(z)是输入的特征向量和对应的权重的线性组合。


2.线性回归模型

        逻辑回归基于线性回归模型,通过权重(或称为系数)表示每个特征对分类结果的重要性。线性回归方程可以表示为:(z = w_1x_1 + w_2x_2 + ... + w_nx_n + b),其中(w_i)是权重,(x_i)是特征值,(b)是偏置项。


3.概率预测

        将线性回归的输出值代入Sigmoid函数,得到样本属于正类的概率。通常,当概率值大于或等于某个阈值(如0.5)时,将样本预测为正类;否则,预测为负类。


三、算法步骤

1.选择预测函数

通常选择Sigmoid函数作为预测函数,用于将线性回归的输出值转换为概率值。


2.构造损失函数

损失函数用于衡量预测结果与实际结果之间的差异。在逻辑回归中,常用的损失函数是交叉熵损失函数(又称对数损失函数)。


3.优化算法

通过优化算法(如梯度下降法)来最小化损失函数,从而得到最优的权重和偏置项。优化过程通过迭代更新权重和偏置项,使得损失函数逐渐减小。

四、算法实现

1.引用的库

  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. from sklearn.datasets import load_iris
  4. from sklearn.model_selection import train_test_split

2.设置训练集并计算准确度

  1. # 设置随机种子
  2. seed_value = 2023
  3. np.random.seed(seed_value)
  1. # 导入数据
  2. iris = load_iris()
  3. X = iris.data[:, :2]
  4. y = (iris.target != 0) * 1
  5. # 划分训练集、测试集
  6. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=seed_value)
  7. # 训练模型
  8. model = LogisticRegression(learning_rate=0.03, iterations=1000)
  9. model.fit(X_train, y_train)
  10. # 结果
  11. y_train_pred = model.predict(X_train)
  12. y_test_pred = model.predict(X_test)
  13. score_train = model.score(y_train_pred, y_train)
  14. score_test = model.score(y_test_pred, y_test)
  15. print('训练集Accuracy: ', score_train)
  16. print('测试集Accuracy: ', score_test)

3.计算损失值(逻辑回归模型)

  1. # Sigmoid激活函数
  2. def sigmoid(z):
  3. return 1 / (1 + np.exp(-z))
  4. # 定义逻辑回归算法
  5. class LogisticRegression:
  6. def __init__(self, learning_rate=0.003, iterations=100):
  7. self.learning_rate = learning_rate # 学习率
  8. self.iterations = iterations # 迭代次数
  9. def fit(self, X, y):
  10. # 初始化参数
  11. self.weights = np.random.randn(X.shape[1])
  12. self.bias = 0
  13. # 梯度下降
  14. for i in range(self.iterations):
  15. # 计算sigmoid函数的预测值, y_hat = w * x + b
  16. y_hat = sigmoid(np.dot(X, self.weights) + self.bias)
  17. # 计算损失函数
  18. loss = (-1 / len(X)) * np.sum(y * np.log(y_hat) + (1 - y) * np.log(1 - y_hat))
  19. # 计算梯度
  20. dw = (1 / len(X)) * np.dot(X.T, (y_hat - y))
  21. db = (1 / len(X)) * np.sum(y_hat - y)
  22. # 更新参数
  23. self.weights -= self.learning_rate * dw
  24. self.bias -= self.learning_rate * db
  25. # 打印损失函数值
  26. if i % 10 == 0:
  27. print(f"Loss after iteration {i}: {loss} ",end='')
  28. # 预测
  29. def predict(self, X):
  30. y_hat = sigmoid(np.dot(X, self.weights) + self.bias)
  31. y_hat[y_hat >= 0.5] = 1
  32. y_hat[y_hat < 0.5] = 0
  33. return y_hat
  34. # 精度
  35. def score(self, y_pred, y):
  36. accuracy = (y_pred == y).sum() / len(y)
  37. return accuracy

4.绘制决策图

  1. # 可视化决策边界
  2. x1_min, x1_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
  3. x2_min, x2_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
  4. xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max, 100), np.linspace(x2_min, x2_max, 100))
  5. Z = model.predict(np.c_[xx1.ravel(), xx2.ravel()])
  6. Z = Z.reshape(xx1.shape)
  7. plt.contourf(xx1, xx2, Z, cmap=plt.cm.Spectral)
  8. plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)
  9. plt.xlabel("Sepal length")
  10. plt.ylabel("Sepal width")
  11. plt.show()

5.完整代码展示

  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. from sklearn.datasets import load_iris
  4. from sklearn.model_selection import train_test_split
  5. # 设置随机种子
  6. seed_value = 2023
  7. np.random.seed(seed_value)
  8. # Sigmoid激活函数
  9. def sigmoid(z):
  10. return 1 / (1 + np.exp(-z))
  11. # 定义逻辑回归算法
  12. class LogisticRegression:
  13. def __init__(self, learning_rate=0.003, iterations=100):
  14. self.learning_rate = learning_rate # 学习率
  15. self.iterations = iterations # 迭代次数
  16. def fit(self, X, y):
  17. # 初始化参数
  18. self.weights = np.random.randn(X.shape[1])
  19. self.bias = 0
  20. # 梯度下降
  21. for i in range(self.iterations):
  22. # 计算sigmoid函数的预测值, y_hat = w * x + b
  23. y_hat = sigmoid(np.dot(X, self.weights) + self.bias)
  24. # 计算损失函数
  25. loss = (-1 / len(X)) * np.sum(y * np.log(y_hat) + (1 - y) * np.log(1 - y_hat))
  26. # 计算梯度
  27. dw = (1 / len(X)) * np.dot(X.T, (y_hat - y))
  28. db = (1 / len(X)) * np.sum(y_hat - y)
  29. # 更新参数
  30. self.weights -= self.learning_rate * dw
  31. self.bias -= self.learning_rate * db
  32. # 打印损失函数值
  33. if i % 10 == 0:
  34. print(f"Loss after iteration {i}: {loss} ",end='')
  35. # 预测
  36. def predict(self, X):
  37. y_hat = sigmoid(np.dot(X, self.weights) + self.bias)
  38. y_hat[y_hat >= 0.5] = 1
  39. y_hat[y_hat < 0.5] = 0
  40. return y_hat
  41. # 精度
  42. def score(self, y_pred, y):
  43. accuracy = (y_pred == y).sum() / len(y)
  44. return accuracy
  45. # 导入数据
  46. iris = load_iris()
  47. X = iris.data[:, :2]
  48. y = (iris.target != 0) * 1
  49. # 划分训练集、测试集
  50. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=seed_value)
  51. # 训练模型
  52. model = LogisticRegression(learning_rate=0.03, iterations=1000)
  53. model.fit(X_train, y_train)
  54. # 结果
  55. y_train_pred = model.predict(X_train)
  56. y_test_pred = model.predict(X_test)
  57. score_train = model.score(y_train_pred, y_train)
  58. score_test = model.score(y_test_pred, y_test)
  59. print('训练集Accuracy: ', score_train)
  60. print('测试集Accuracy: ', score_test)
  61. # 可视化决策边界
  62. x1_min, x1_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
  63. x2_min, x2_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
  64. xx1, xx2 = np.meshgrid(np.linspace(x1_min, x1_max, 100), np.linspace(x2_min, x2_max, 100))
  65. Z = model.predict(np.c_[xx1.ravel(), xx2.ravel()])
  66. Z = Z.reshape(xx1.shape)
  67. plt.contourf(xx1, xx2, Z, cmap=plt.cm.Spectral)
  68. plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Spectral)
  69. plt.xlabel("Sepal length")
  70. plt.ylabel("Sepal width")
  71. plt.show()

6.运行结果图

本次实验我们使用鸢尾花数据集来实现逻辑回归算法,得到了如上一百个损失行数值与训练集和·测试集的准确度。

调用函数可以看到绘制的数据集及最佳拟合直线展示在坐标图中。分类结果较好,仅错分几个数据。

五、实验小结

        实验我们学习了对逻辑回归算法的具体实现,逻辑回归应用于分类问题,常用于二分类问题。逻辑回归的目的就是找到Sigmoid函数的最佳拟合参数,求解最佳拟合参数的过程可以通过最优化算法实现,最优化算法有很多种,比如梯度上升、梯度下降等等。对于后续的机器学习打下了坚实的基础。

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/776219
推荐阅读
相关标签
  

闽ICP备14008679号