当前位置: article > 正文

关于近端梯度下降法你不知道的事_加速近端梯度法

作者：Monodyee | 2024-04-29 15:41:13

踩

加速近端梯度法

介绍

近端梯度下降法是众多梯度下降 (gradient descent) 方法中的一种，其英文名称为proximal gradident descent，其中，术语中的proximal一词比较耐人寻味，将proximal翻译成“近端”主要想表达"（物理上的）接近"。与经典的梯度下降法和随机梯度下降法相比，近端梯度下降法的适用范围相对狭窄。对于凸优化问题，当其目标函数存在不可微部分（例如目标函数中有 [公式] -范数或迹范数）时，近端梯度下降法才会派上用场。
一般来说，PGD适用于特定的凸优化问题：假设目标函数 $f (x) = g (x) + h (x)$ 是由 $g (x)$ 和 $h (x)$ 叠加而成，其中，限定 $g (x)$ 是可微的凸函数、 $h (x)$ 是不可微 (或局部不可微) 的凸函数。
使用近端梯度下降，可以实现 $O(1/\epsilon)$ 的收敛率 $ϵ=f(x^k) − f ( x^∗ ))$ ，即当前迭代结果与最优解之间的偏差）。通过对近端梯度法加速，可以达到 $\sqrtϵ)$ 收敛速率。

如下：

其实就是初始点作为 $x^{(-1)}$ ，然后第二个点使用正常的近端梯度下降法求得，作为 $x^{(0)}$ ，然后从第三个点开始，满足（19）式。即 $k$ 从1开始。
然后软阈值函数也不使用上一次的 $x$ 来计算了，而是使用 $v$ ，即：
$x^{(i)}=prox(v-tg'(v))$ 然后计算 $v$ 再进行下一次计算，而不是 $x^{(i)}=prox(x^{(i-1)}-tg'(x^{(i-1)}))$
至于近端梯度下降法为什么有效，这里不讲专业的证明，只从 $v$ 的计算公式上看， $v$ 在原来的基础上加了一个动量：

以此来提高迭代速度。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/508493