运维做开发

这个屌丝很懒，什么也没留下！

热门标签

机器学习|什么是梯度下降（小白向）|探寻最优解之路

作者：运维做开发 | 2024-08-18 20:33:33

踩

文章目录

前言
一、什么是梯度下降？
二、梯度下降法一般步骤
三、梯度下降的分类
三、总结
四、后话

前言

我们身处人工智能的时代，各种算法层出不穷，令我们眼花缭乱，望而却步，那么有没有一种核心的，最基础的算法，能够作为一把钥匙帮助我们打开机器学习领域的大门呢，那就是“梯度下降法”啦，那么，什么是梯度？为什么要下降？怎么下降呢？

一、什么是梯度下降？

想象一下，你在一座大山的山顶上，你的目标是找到下山最快的路径。梯度下降算法的工作方式与此类似，只不过是在数学空间中寻找函数最小值的过程。它是一种迭代优化算法，用于最小化或最大化一个函数（在机器学习中通常是损失函数），通过沿着函数梯度的反方向移动来逐步调整参数。
OK记住这个下山的例子，我们要开始分析啦！

二、梯度下降法一般步骤

1.确定一个小目标——预测函数

机器学习的一个常见任务是：通过学习算法发现一堆数据背后的规律，然后不断改进模型，使得这个模型能够很好地做出预测。

通俗示例：
数据如下：已知房价由房子的面积，朝向，距离市中心地距离这三个因变量决定。现在有500条数据，每条数据包含一个房子的面积，朝向，距离市中心和房价。例如：房子1：面积120平，朝向正南，距离市中心3000米，房价：200万。
你需要做的：是找到一个目标函数很好的拟合这些数据，以便于我给你一条新的数据，它包括三个因变量，然后带入你的函数，预测出房价。
OK这就是一个常见任务。

现有一个坐标系：横坐标x:面积，纵坐标y:房价。有一堆样本点，你需要找到一个函数拟合这些点，是y=wx还是y=wx²？直觉告诉你这是一条直线，那么好，现在我们从一元一次函数开始吧！这个问题中目标函数或者说预测函数就是：y=wx。

在这里插入图片描述

2.找到差距——代价函数

问题来了，怎么判断拟合的程度好不好呢？我们可以用样本点偏离目标函数的程度表示，偏离越大，拟合越不好，反之越好。
最常用的方法是均方误差，顾名思义：就是误差平方和的平均值。
我们现在算一下平方误差，现有一个点p1（x1,y1），要算这个点的误差e1，那么如下图：

这个误差函数也被称为代价函数（cost function），为了偏离更小，也就是拟合程度更好，我们当然希望找到一个w，使得e最小，也就是求最小值点
在这里插入图片描述

这样，我们成功将样本点的拟合过程映射到了一个函数图像上：
在这里插入图片描述

3.明确搜索方向——梯度计算

梯度（gradient）就是导数，在二次函数中也就是斜率。
我们随便选择一个初始点，直觉告诉我们，往下降的方向走准没错！
在这里插入图片描述

4.一步要走多远？——学习率

往下降的方向走，方向对了，但是步子迈多大？
给出一个式子：
新w=旧w - 斜率*学习率
步子迈太大——学习率太高，例如=0.2，可能会出现以下效果
在这里插入图片描述

恰当的学习率（例如0.01）是受推崇的，效果也不错，很快找到了最低点

在这里插入图片描述

三、梯度下降的分类

梯度下降有几种变体，主要区别在于计算梯度时使用数据的不同方式：

批量梯度下降：使用所有训练数据计算梯度，是最准确但最慢的方法。
随机梯度下降（SGD）：每次只使用一个训练样本来更新参数，速度快但波动较大。
小批量梯度下降：折中方案，每次使用一小批样本计算梯度，既保证了速度又减少了波动。

下面是文字解释：
在机器学习中，梯度下降算法是调整模型参数以最小化损失函数的重要方法。根据如何选择数据来计算梯度，梯度下降有三种主要形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent，简称SGD）以及小批量梯度下降（Mini-batch Gradient Descent）。下面，我们将逐一探讨这三种方法的特点和适用场景。

批量梯度下降（Batch Gradient Descent）

定义：批量梯度下降使用整个训练数据集来计算梯度。这意味着，在每一次迭代中，算法都会基于所有训练样本的平均梯度来更新参数。

优点：

准确性：由于考虑了所有训练数据，梯度的估计更为准确，使得每次更新都朝着全局最小值的方向前进。

缺点：

计算成本高：需要在每个迭代步骤中处理整个数据集，这在大数据集上可能导致非常慢的收敛速度。
内存需求：必须将所有训练数据保留在内存中，这对于大规模数据集来说可能是个问题。

随机梯度下降（SGD）

定义：随机梯度下降在每次迭代时只使用单个训练样本来计算梯度并更新参数。这意味着更新过程是基于随机选择的样本进行的。

优点：

计算效率：由于每次迭代只需要处理一个样本，SGD在大型数据集上的计算速度远快于批量梯度下降。
避免局部最小值：随机性可以帮助模型跳出局部最小值，更有可能找到全局最小值。

缺点：

波动性：由于每次更新都依赖于单个样本，更新过程可能非常不稳定，导致损失函数的值在迭代过程中大幅波动。

小批量梯度下降（Mini-batch Gradient Descent）

定义：小批量梯度下降是批量梯度下降和随机梯度下降的一种折中方案。它在每次迭代中使用一个小批量的样本集合来计算梯度。

优点：

速度与稳定性：相比批量梯度下降，小批量梯度下降的计算速度更快，同时比随机梯度下降更稳定，因为它减少了噪声的影响。
硬件效率：现代GPU和CPU设计往往对处理小批量数据特别有效，这使得小批量梯度下降在实践中成为首选。

缺点：

设置难度：需要选择合适的小批量大小，太小会导致波动性，太大则会降低算法的速度优势。

实践建议

在实际应用中，小批量梯度下降因其综合了速度和稳定性的优势而被广泛采用。批量大小的选择通常是一个经验参数，需要根据具体问题和可用资源来决定。对于大多数情况，小批量梯度下降提供了梯度下降算法的最佳平衡点，是深度学习和机器学习项目中的标准选择。

三、总结

梯度下降的一般过程：

定义代价函数（const function）
选择起始点（starting point）
计算梯度（gradient）
按照学习率前进（learning rate）
重复3 4 步骤，直至函数收敛。

四、后话

以上只是一个简单例子，实际的目标函数可能相当复杂，可能几十个因变量决定一个函数值，那对应的代价函数当然也会很复杂了。
你的代价函数可能是七拐八拐，可能是一个复杂的三维曲面，可能是一个我们无法想象的几十维度的函数图像。
在这里插入图片描述

在这里插入图片描述

这也就是“为什么不用初中知识直接求这个代价函数最小值点呢，为什么还要一步一步梯度下降呢”这个问题的答案啦！因为给你一个10元函数，你怎么求呢对吧。而无论多少维度，都是可以梯度下降去求的！

梯度下降算法是机器学习中不可或缺的一部分，它帮助我们在高维空间中找到最优解。无论是调整神经网络的权重，还是优化线性回归模型，梯度下降都是实现这些任务的关键工具。希望本文能帮助你对这一概念有了更深入的理解。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/999152