当前位置:   article > 正文

《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch6 随机近似 和 随机梯度下降 【non-incremental —> incremental 增量】_赵世钰老师书籍

赵世钰老师书籍

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍

学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接

PPT和书籍下载网址: 【GitHub链接】


在这里插入图片描述

Stochastic Approximation:随机近似
Stochastic Gradient Descent:随机梯度下降

第 7 章 的 Temporal-Difference Learning 是 Stochastic Approximation 的一个特殊情况。

在这里插入图片描述

随机梯度下降 是 RM 算法的特例
4、Batch Gradient Descent、Mini-batch Gradient Descent、Stochastic Gradient Descent。

在这里插入图片描述

蒙特卡洛估计 的基本思想: 当 N → ∞ , x ˉ → E [ X ] 当 N \to \infty,\bar{x}\to\mathbb{E}[X] NxˉE[X]

强化学习中的 状态值 和 动作值等 均定义为 均值。

计算 x ˉ \bar x xˉ 的两种方式:
1、收集所有样本,然后计算平均值。

  • 如果样本数量很大,我们可能需要等待很长时间才能收集到所有的样本。

2、增量迭代的方式计算平均值。

计算 x ˉ \bar{x} xˉ 的迭代 增量式 方法:
前 k 个 样本的均值: w k + 1 = 1 k ∑ i = 1 k x i , k = 1 , 2 , . . . w_{k+1}=\frac{1}{k}\sum\limits_{i=1}^kx_i ,k=1, 2,... wk+1=k1i=1kxik=1,2,...
前 k - 1 个 样本的均值: w k = 1 k − 1 ∑ i = 1 k − 1 x i , k = 2 , 3 w_k=\frac{1}{k-1}\sum\limits_{i=1}^{k-1}x_i,k= 2, 3 wk=k11i=1k1xik=2,3
w k + 1 = 1 k ∑ i = 1 k x i = 1 k ( ∑ i = 1 k − 1 x i + x k ) = 1 k ( ( k − 1 ) w k + x k ) = w k − 1 k ( w k − x k )

wk+1=1ki=1kxi=1k(i=1k1xi+xk)=1k((k1)wk+xk)=wk1k(wkxk)
wk+1=k1i=1kxi=k1(i=1k1xi+xk)=k1((k1)wk+xk)=wkk1(wkxk)

在这里插入图片描述

优点:一旦接收到样本,可以立即得到均值估计。

由于样本不足,最初的近似可能不准确。
随着样本量的增加,可以根据大数定律逐步提高估计精度。

w k + 1 = w k − α k ( w k − x k ) w_{k+1}=w_k-\textcolor{blue}{\alpha_k}(w_k-x_k) wk+1=wkαk(wkxk)
特殊的 随机近似算法, 特殊的随机梯度下降算法。

6.2 Robbins-Monro (RM) 算法

Stochastic approximation (SA):随机近似
SA 是指解决 寻根 或 优化问题的一大类随机迭代算法。
相比于其它寻根算法,SA 的强大之处在于它不需要知道 目标函数的表达式及其导数

Robbins-Monro (RM) 算法:
stochastic gradient descent 算法 是 RM 算法的特殊形式。

可用于 分析 均值估计算法。

问题:找方程的根。
g ( w ) = 0 g(w)=0 g(w)=0
w ∈ R w\in\mathbb R wR 待解变量
g g g R → R \mathbb R\to\mathbb R RR 方程
——————
假设 最小优化问题的目标函数为 J ( w ) J(w) J(w)
该优化问题可转成 g ( w ) = ▽ w J ( w ) = 0 g(w)=\triangledown_wJ(w)=0 g(w)=wJ(w)=0

如何计算 g ( w ) = 0 g(w) =0 g(w)=0 的根?
情形 1 : g g g 的表达式或它的导数已知,数值算法。
情形 2 : g g g 的表达式未知 ——> 神经网络 表示函数

在这里插入图片描述

通过 RM 算法 求解 以下问题:
w k + 1 = w k − a k g ~ ( w k , η k ) ,        k = 1 , 2 , 3 , . . . w_{k+1}=w_k-a_k\widetilde{g}(w_k,\eta_k), ~~~~~~k=1,2,3,... wk+1=wkakg (wk,ηk),      k=1,2,3,...

  • w k w_k wk: 根的第 k k k 次估计值。
  • k k k 次带误差的观测值: g ~ ( w k , η k ) = g ( w k ) + η k \widetilde{g}(w_k,\eta_k)=g(w_k)+\eta_k g (wk,ηk)=g(wk)+ηk
  • 正 系数 a k a_k ak

函数 g ( w ) g(w) g(w) 是黑盒, 算法依赖数据。

  • 输入序列: { w k } \{w_k\} {wk}
  • 有误差的输出序列: { g ~ ( w k , η k ) } \{\widetilde{g}(w_k,\eta_k)\} {g (wk,ηk)}

在这里插入图片描述

无模型 ——> 提供 数据 亦可求解


6.2.1 RM 算法的 收敛性质

为什么 RM 算法 可以 找到 g ( w ) = 0 g(w) =0 g(w)=0 的根 ?

示例:直观说明 RM 算法 为什么收敛

在这里插入图片描述

在这里插入图片描述

求解 g ( w ) = tanh ⁡ ( w − 1 ) = 0 g(w)=\tanh (w-1)=0 g(w)=tanh(w1)=0 的根。
g(w) 的根 w ∗ = 1 w^*=1 w=1
为了简化,不考虑 误差。 RM 算法求解该问题的过程如下:

参数: w 1 = 3 , a k = 1 / k , η k ≡ 0 w_1=3,a_k=1/k,\eta_k\equiv0 w1=3,ak=1/k,ηk0
w k + 1 = w k − a k g ( w k ) w_{k+1}=w_k-a_kg(w_k) wk+1=wkakg(wk)
仿真结果: w k w_k wk 收敛到根 w ∗ = 1 w^*=1 w=1
  ~  
本次迭代 w k + 1 w_{k+1} wk+1 比上一次迭代 w k w_k wk更接近真值 w ∗ w^* w
1、当 w k > w ∗ w_k>w^* wk>w,有 g ( w k ) > 0      g(w_k)>0~~~~ g(wk)>0     【即 w k > 1 w_k>1 wk>1 时, g ( w k ) = tanh ⁡ ( w k − 1 ) > 0 g(w_k)=\tanh (w_k-1)>0 g(wk)=tanh(wk1)>0
w k + 1 = w k − a k g ( w k ) < w k w_{k+1}=w_k-a_kg(w_k) < w_k wk+1=wkakg(wk)<wk。【减掉正的】。 w k + 1 w_{k+1} wk+1 w k w_k wk更接近真值 w ∗ w^* w
  ~  
在这里插入图片描述
  ~  
2、当 w k < w ∗ w_k<w^* wk<w,根据方程有 g ( w k ) < 0 g(w_k)<0 g(wk)<0,
w k + 1 = w k − a k g ( w k ) > w k w_{k+1}=w_k-a_kg(w_k) > w_k wk+1=wkakg(wk)>wk。【加 正的】。 w k + 1 w_{k+1} wk+1 w k w_k wk更接近真值 w ∗ w^* w
  ~  
在这里插入图片描述

$\equiv$     ≡ ~~~\equiv    

给 一个 w w w,观察输出 y y y, 若是 大于 0, 就小一些,若是 小于 0 ,就大一些。
那变化多少? ——> RM 算法: − a k g ( w k ) -a_kg(w_k) akg(wk)

在这里插入图片描述

在这里插入图片描述

Robbins-Monro 定理
如果以下 3 个条件满足, 则 w k w_k wk 以概率 1 收敛到 w ∗ w^* w。其中 根 w ∗ w^* w 满足 g ( w ∗ ) = 0 g(w^*)=0 g(w)=0
1)对所有 w w w 0 < c 1 ≤ ▽ w g ( w ) ≤ c 2 0 < c_1 \leq \triangledown_wg(w) \leq c_2 0<c1wg(w)c2; 【要求 梯度 有界】
2) ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k=\infty k=1ak=, 且 ∑ k = 1 ∞ a k 2 < ∞ \sum\limits_{k=1}^\infty a_k^2 < \infty k=1ak2<; 【对 正系数 a k a_k ak 的要求:最终收敛到 0 (后面), 同时不要太快收敛到 0 (前面)】
3) E [ η k ∣ H k ] = 0 \mathbb E[\eta_k|\mathcal H_k]=0 E[ηkHk]=0 E [ η k 2 ∣ H k ] < ∞ \mathbb E[\eta_k^2|\mathcal H_k]< \infty E[ηk2Hk]< 其中 H k = { w k , w k − 1 , . . . } \mathcal H_k=\{w_k,w_{k-1},...\} Hk={wk,wk1,...}【对 测量误差 η k \eta_k ηk 的要求】

with probability 1 (w.p.1)
————————
对 每个条件的进一步说明:
1)对所有 w w w 0 < c 1 ≤ ▽ w g ( w ) ≤ c 2 0 < c_1 \leq \triangledown_wg(w) \leq c_2 0<c1wg(w)c2;

  • g g g 是单调递增的,保证了 g ( w ) = 0 g(w) = 0 g(w)=0 的根存在且唯一。【导数为正】
  • 梯度有上界。

2) ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k=\infty k=1ak= ∑ k = 1 ∞ a k 2 < ∞ \sum\limits_{k=1}^\infty a_k^2 < \infty k=1ak2<;

  • 前面的条件 保证 a k a_k ak 不会太快收敛于 0。
  • 后面的条件 保证 a k a_k ak k → ∞ k→∞ k收敛到 0

3) E [ η k ∣ H k ] = 0 \mathbb E[\eta_k|\mathcal H_k]=0 E[ηkHk]=0 E [ η k 2 ∣ H k ] < ∞ \mathbb E[\eta_k^2|\mathcal H_k]< \infty E[ηk2Hk]<

  • 一个特殊而又常见的情况是 { η k } \{η_k\} {ηk}是一个满足 E [ η k ] = 0 \mathbb E[η_k] = 0 E[ηk]=0 E [ η k 2 ] < ∞ \mathbb E[η^2_ k] <∞ E[ηk2]< 的 iid 【独立同分布】随机序列。观测误差 η k η_k ηk 不要求为高斯。

————————
针对 条件 2 进一步讨论:

为什么 条件 ∑ k = 1 ∞ a k 2 < ∞ \sum\limits_{k=1}^\infty a_k^2 < \infty k=1ak2< 重要?
即为什么 需要 k → ∞ k \to \infty k 时, a k → 0 a_k\to0 ak0

根据之前的迭代式, 有:
w k + 1 − w k = − a k g ~ ( w k , η k ) w_{k+1}-w_k=-a_k\widetilde g(w_k,\eta_k) wk+1wk=akg (wk,ηk)

a k → 0 a_k\to0 ak0,右边 → 0 \to0 0。则左边 w k + 1 − w k → 0 w_{k+1}-w_k \to 0 wk+1wk0 w k + 1 w_{k+1} wk+1 w k w_k wk互相靠近】。这样 w k w_k wk 才可能 最终收敛。否则 w k w_k wk k → ∞ k\to \infty k 时仍可能 波动。

2_1 为什么 条件 ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k=\infty k=1ak= 重要?
即为什么 需要 a k a_k ak 不要 太快收敛到 0?

w 2 = w 1 − a 1 g ~ ( w 1 − η 1 ) w 3 = w 2 − a 2 g ~ ( w 2 − η 2 ) . . . w k + 1 = w k − a k g ~ ( w k − η k )

w2=w1a1g~(w1η1)w3=w2a2g~(w2η2)...wk+1=wkakg~(wkηk)
w2w3wk+1=w1a1g (w1η1)=w2a2g (w2η2)...=wkakg (wkηk)

累加,得到
w ∞ − w 1 = ∑ k = 1 ∞ a k g ~ ( w k , η k ) w_\infty-w_1=\sum\limits_{k=1}^\infty a_k\widetilde g(w_k,\eta_k) ww1=k=1akg (wk,ηk)

如果 ∑ k = 1 ∞ a k < ∞ \sum\limits_{k=1}^\infty a_k<\infty k=1ak< ,等式右侧可能是 有界的。
此时有
∣ w ∞ − w 1 ∣ = ∣ ∑ k = 1 ∞ a k g ~ ( w k , η k ) ∣ ≤ b |w_\infty-w_1|=|\sum\limits_{k=1}^\infty a_k\widetilde g(w_k,\eta_k)|\leq b ww1=k=1akg (wk,ηk)b

希望最终收敛 w ∞ = w ∗ w_\infty = w^* w=w,有 ∣ w ∗ − w 1 ∣ ≤ b |w^*-w_1|\leq b ww1b

考虑 初步猜测的 w 1 w_1 w1 w ∗ w^* w 比较远, 满足 ∣ w ∗ − w 1 ∣ > b |w^*-w_1|> b ww1>b。矛盾,意味着 这种情况下不收敛。

因此,需要 ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k \textcolor{red} = \infty k=1ak= , 用于保证 选择的 w 1 w_1 w1 不管离 w ∗ w^* w 多远, 最后都能收敛。

————————
什么样的 a k a_k ak 满足上面的条件 2 呢?
∑ k = 1 ∞ a k 2 < ∞ \sum\limits_{k=1}^\infty a_k^2 < \infty k=1ak2< ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k=\infty k=1ak=;

  • 最终收敛到 0, 同时不要太快收敛到 0 。

a k = 1 k a_k=\frac{1}{k} ak=k1
lim ⁡ n → ∞ ( ∑ k = 1 n 1 k − ln ⁡ n ) = κ \lim\limits_{n\to\infty}(\sum\limits_{k=1}^n\frac{1}{k}-\ln n)=\kappa nlim(k=1nk1lnn)=κ。【欧拉常数:Euler-Mascheroni constant、Euler’s constant。 κ ≈ 0.577 \kappa \approx0.577 κ0.577
∑ k = 1 ∞ 1 k 2 = π 2 6 < ∞ \sum\limits_{k=1}^\infty\frac{1}{k^2}=\frac{\pi^2}{6}<\infty k=1k21=6π2< 【Basel problem】

$\kappa$    κ ~~\kappa   κ

如果不满足这三个条件,算法可能无法工作。

  • 例如, g ( w ) = w 3 − 5 g(w) = w^3 - 5 g(w)=w35 不满足梯度有界性的第一个条件。如果初始猜测是好的,算法可以收敛(局部)。否则,它会发散。

在许多强化学习算法中, a k a_k ak 通常被选为一个足够小的常数。在这种情况下,虽然不满足第二个条件,但算法仍然可以有效地工作。

  • 虽然 a k = 1 k a_k=\frac{1}{k} ak=k1 时满足条件,但当 k k k 比较大时, 后面获取的数据 起到的作用将非常小。实际不这样设置。因为仍希望后续获取的数据能发挥作用 ——> 选为 一个 足够小的常数。

——————

6.2.2 将 RM 算法 应用到 均值估计

均值估计算法: w k + 1 = w k + α k ( x k − w k ) w_{k+1}=w_k+\alpha_k(x_k-w_k) wk+1=wk+αk(xkwk)

以下 证明 该均值估计算法 是 RM 算法的特例。

???
考虑 方程 g ( w ) = ˙ w − E [ X ] g(w)\dot{=}w-\mathbb E[X] g(w)=˙wE[X]
目标是 求解 g ( w ) = 0 g(w)=0 g(w)=0
包含误差的观测值 g ~ ( w , η ) = w − x = ( w − E [ X ] ) + ( E [ X ] − x ) = ˙ g ( w ) + η \widetilde g(w, \eta) =w-x=(w-\mathbb E[X])+(\mathbb E[X]-x)\dot{=}g(w)+\eta g (w,η)=wx=(wE[X])+(E[X]x)=˙g(w)+η
求解 g ( x ) = 0 g(x)=0 g(x)=0 的 RM算法为:
w k + 1 = w k − α k g ~ ( w k , η k ) = w k − α k ( w k − x k ) w_{k+1}=w_k-\alpha_k\widetilde g(w_k,\eta_k)=w_k-\alpha_k(w_k-x_k) wk+1=wkαkg (wk,ηk)=wkαk(wkxk)
???

————————————

— [选学] Dvoretzkys 收敛定理
在这里插入图片描述

考虑 随机过程 w k + 1 = ( 1 − α k ) w k + β k η k w_{k+1}=(1-\alpha_k)w_k+\beta_k\eta_k wk+1=(1αk)wk+βkηk
其中 { α k } k = 1 ∞ \{\alpha_k\}_{k=1}^\infty {αk}k=1, { β k } k = 1 ∞ \{\beta_k\}_{k=1}^\infty {βk}k=1, { η k } k = 1 ∞ \{\eta_k\}_{k=1}^\infty {ηk}k=1 为 随机序列。
对所有的 k k k, α k ≥ 0 , β k ≥ 0 \alpha_k\geq 0, \beta_k\geq0 αk0,βk0
若是满足 以下两个条件,则 w k w_k wk 以概率 1 收敛到 0 。
1) ∑ k = 1 ∞ α k = ∞ , ∑ k = 1 ∞ α k 2 < ∞ ; ∑ k = 1 ∞ β k 2 < ∞ 。 \sum\limits_{k=1}^\infty\alpha_k=\infty, \sum\limits_{k=1}^\infty\alpha_k^2<\infty;\sum\limits_{k=1}^\infty\beta_k^2<\infty。 k=1αk=,k=1αk2<;k=1βk2<w.p.1;
2) E [ η k ∣ H k ] = 0 , E [ η k 2 ∣ H k ] ≤ C    \mathbb E[\eta_k|\mathcal H_k]=0, \mathbb E[\eta^2_k|\mathcal H_k]\leq C~~ E[ηkHk]=0,E[ηk2Hk]C  w.p.1; 其中 H k = { w k , w k − 1 , . . . , η k − 1 , . . . , α k − 1 , . . . , β k − 1 , . . . } \mathcal H_k=\{w_k,w_{k-1}, ...,\eta_{k-1},...,\alpha_{k-1},...,\beta_{k-1},...\} Hk={wk,wk1,...,ηk1,...,αk1,...,βk1,...}

一个比 RM 定理更一般的结果。可用来证明RM 定理
可分析均值估计问题
它的扩展可以用来分析 Q 学习和 TD 学习算法。

6.4 随机梯度下降 (Stochastic gradient descent, SGD)

P3
均值估计算法: 通过迭代方法求解 期望值。

SGD 是 RM 算法的特殊情况,
均值估计算法 是 SGD 的特殊情况。

均值估计 ∈ S G D ,     S G D ∈ R M 均值估计 \in SGD, ~~~SGD \in RM 均值估计SGD,   SGDRM

问题: 找 使得函数值最小 的 w w w min ⁡ w J ( w ) = E [ f ( w , X ) ] \min\limits_{w}J(w)=\mathbb E[f(w, X)] wminJ(w)=E[f(w,X)]
待优化参数: w w w
随机变量 X X X,期望 是关于 X X X 的。

3 种求解方法
最小化
方法一: 梯度下降 (gradient descent, GD)
w k + 1 = w k − α k ∇ w E [ f ( w k , X ) ] = w k − α k E [ ∇ w f ( w k , X ) ] w_{k+1}=w_k-\alpha_k\nabla_w \mathbb E[f(w_k, X)]=w_k-\alpha_k \mathbb E[\nabla_wf(w_k, X)] wk+1=wkαkwE[f(wk,X)]=wkαkE[wf(wk,X)]

  • 不足: 关于 X X X 的期望值 难以 获得
      ~  

方法二:批量梯度下降 (batch gradient descent,BGD)
根据 批数据, 通过迭代的均值估计算法 获取 期望值。
E [ ∇ w f ( w k , X ) ] ≈ 1 n ∑ i = 1 n ∇ w f ( w k , x i )      \mathbb E[\nabla_wf(w_k, X)]\approx\frac{1}{n}\sum\limits_{i=1}^{n}\nabla_wf(w_k, x_i)~~~~ E[wf(wk,X)]n1i=1nwf(wk,xi)    .采样,取平均,近似。【蒙特卡洛估计基本思想】
w k + 1 = w k − α k 1 n ∑ i = 1 n ∇ w f ( w k , x i ) w_{k+1}=w_k- \alpha_k \frac{1}{n} \sum\limits_{i=1}^{n} \nabla_wf(w_k,x_i) wk+1=wkαkn1i=1nwf(wk,xi)
批次里迭代 求解 期望值。 外面的迭代 求解 w w w

  • 不足: 每个 w k w_k wk 的一次迭代需要很多样本
      ~  

方法三: 随机梯度下降 (stochastic gradient descent ,SGD)
w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k, x_k) wk+1=wkαkwf(wk,xk)

  • 和 梯度下降 GD 相比, 真实 梯度 E [ ∇ w f ( w k , X ) ] \mathbb E[\nabla_wf(w_k,X)] E[wf(wk,X)] ——> 随机梯度 ∇ w f ( w k , x k ) \nabla_wf(w_k,x_k) wf(wk,xk)
  • 和 批次梯度下降 BGD 相比: n = 1

——————

6.4.1 将 SGD 应用到 均值估计

问题:
min ⁡ w J ( w ) = E [ f ( w , X ) ] = E [ 1 2 ∣ ∣ w − X ∣ ∣ 2 ] \min\limits_wJ(w)=\mathbb E[f(w, X)]=\mathbb E\Big[ \frac{1}{2}||w-X||^2\Big] wminJ(w)=E[f(w,X)]=E[21∣∣wX2]
f ( w , X ) = 1 2 ∣ ∣ w − X ∣ ∣ 2 f(w, X)=\frac{1}{2}||w-X||^2 f(w,X)=21∣∣wX2
∇ w f ( w , X ) = w − X \nabla_wf(w, X)=w-X wf(w,X)=wX
可以通过求解 ∇ w J ( w ) = 0 ∇_wJ(w) = 0 wJ(w)=0,获得最优解 w ∗ = E [ X ] w^∗= {\mathbb E}[X] w=E[X]
因此,这个优化问题等价于均值估计问题。
————
1、最优解 w ∗ = E [ X ] w^*=\mathbb E[X] w=E[X]
在这里插入图片描述
  ~  
2、用 梯度下降GD 算法 求解该问题
w k + 1 = w k − α k ∇ w J ( w k ) = w k − α k E [ ∇ w f ( w k , X ) ] = w k − α k E [ w k − X ]

wk+1=wkαkwJ(wk)=wkαkE[wf(wk,X)]=wkαkE[wkX]
wk+1=wkαkwJ(wk)=wkαkE[wf(wk,X)]=wkαkE[wkX]

  • 这种梯度下降算法不适用,因为右边的 E [ w k − X ] {\mathbb E}[w_k - X] E[wkX] E [ X ] {\mathbb E}[X] E[X] 是未知的(事实上,这是我们需要求解的)。

3、用 SGD 算法 求解该问题
w k + 1 = w k − α k ∇ w f ( w k , x k ) = w k − α k ( w k − x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k,x_k)=w_k-\alpha_k(w_k-x_k) wk+1=wkαkwf(wk,xk)=wkαk(wkxk)
————
和之前的 均值估计 算法相同。 均值估计 算法 ∈ S G D \in SGD SGD

6.4.2 SGD 的收敛性 分析

SGD 算法的思想是用随机梯度代替真实梯度。然而,由于随机梯度是随机的,有人可能会问 SGD 的收敛速度是慢的还是随机的。幸运的是,SGD 通常可以有效地收敛。
一个有趣的收敛模式是,当估计 w k w_k wk 远离最优解 w ∗ w^* w 时,它的行为类似于常规梯度下降算法。
只有当 w k w_k wk 接近 w ∗ w^* w 时,SGD 的收敛才表现出更大的随机性。

待分析的问题:
GD: w k + 1 = w k − α k E [ ∇ w f ( w k , X ) ] w_{k+1}=w_k-\alpha_k\mathbb E[\nabla_wf(w_k, X)] wk+1=wkαkE[wf(wk,X)]

SGD: w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k \nabla_wf(w_k, x_k) wk+1=wkαkwf(wk,xk)

∇ w f ( w k , x k ) \nabla_wf(w_k, x_k) wf(wk,xk) 可视为 E [ ∇ w f ( w k , X ) ] \mathbb E[\nabla_wf(w_k, X)] E[wf(wk,X)] 的 包含误差的测量值。

∇ w f ( w k , x k ) = E [ ∇ w f ( w k , X ) ] + ∇ w f ( w k , x k ) − E [ ∇ w f ( w k , X ) ] ⏟ η \nabla_wf(w_k, x_k)=\mathbb E[\nabla_wf(w_k, X)] + \underbrace{\nabla_wf(w_k, x_k)-\mathbb E[\nabla_wf(w_k, X)]}_{\eta} wf(wk,xk)=E[wf(wk,X)]+η wf(wk,xk)E[wf(wk,X)]
由于 ∇ w f ( w k , x k ) ≠ E [ ∇ w f ( w k , X ) ] \nabla_wf(w_k, x_k)\neq\mathbb E[\nabla_wf(w_k, X)] wf(wk,xk)=E[wf(wk,X)], SGD 算法 是否满足 当 k → ∞ k\to\infty k 时, w k → w ∗ w_k \to w^* wkw

——————
以下 证明 SGD 是一种特殊的 RM 算法

SGD 的目标 是 最小化 J ( w ) = E [ f ( w , X ) ] J(w)=\mathbb E[f(w, X)] J(w)=E[f(w,X)]

该问题 可转成 一个 寻根 问题: ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] = 0 \nabla_wJ(w)=\mathbb E[\nabla_wf(w, X)]=0 wJ(w)=E[wf(w,X)]=0

g ( w ) = ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] g(w)=\nabla_wJ(w)=\mathbb E[\nabla_wf(w,X)] g(w)=wJ(w)=E[wf(w,X)]

SGD 的目标为 找 g ( w ) = 0 g(w)=0 g(w)=0 的根。

测量值 g ~ ( w , η ) = ∇ w f ( w , x ) = E [ ∇ w f ( w , X ) ] ⏟ g ( w ) + ∇ w f ( w , x ) − E [ ∇ w f ( w , X ) ] ⏟ η \widetilde g(w,\eta)=\nabla_wf(w, x)=\underbrace{\mathbb E[\nabla_w f(w, X)]}_{g(w)} + \underbrace{\nabla_wf(w, x)-\mathbb E[\nabla_wf(w, X)]}_{\eta} g (w,η)=wf(w,x)=g(w) E[wf(w,X)]+η wf(w,x)E[wf(w,X)]

求解 g ( w ) = 0 g(w)=0 g(w)=0 的 RM 算法为
w k + 1 = w k − a k g ~ ( w k , η k ) = w k − a k ∇ w f ( w k , x k ) w_{k+1}=w_k-a_k\widetilde g(w_k,\eta_k)=w_k-a_k\nabla_wf(w_k,x_k) wk+1=wkakg (wk,ηk)=wkakwf(wk,xk)

SGD 是一种特殊的 RM 算法。

在这里插入图片描述

  • 证明 6.4.5 SGD 的收敛性

-——————
part 6 SGD 的一些特性

SGD 是 把 GD 中 的 真实梯度 用 随机梯度 替换,会不会 造成 SGD 的收敛的随机性比较大呢?

1、当 w k w_k wk w ∗ w^* w 比较远时, 下降过程 和 普通梯度下降 类似; 比较近时下降过程 随机

分析过程:

考虑 随机梯度 和 批次梯度的 相对误差:

Δ k = ˙ ∣ ∇ w f ( w k , x k ) − E [ ∇ w f ( w k , X ) ] ∣ ∣ E [ ∇ w f ( w k , X ) ] ∣ \Delta_k\dot=\frac{|\nabla_wf(w_k,x_k)-\mathbb E[\nabla_wf(w_k,X)]|}{|\mathbb E[\nabla_wf(w_k,X)]|} Δk=˙E[wf(wk,X)]wf(wk,xk)E[wf(wk,X)]

$\nabla$    ∇ ~~\nabla   

由于 E [ ∇ w f ( w ∗ , X ) ] = 0 \mathbb E[\nabla_wf(w^*,X)]=0 E[wf(w,X)]=0

Δ k = ∣ ∇ w f ( w k , x k ) − E [ ∇ w f ( w k , X ) ] ∣ ∣ E [ ∇ w f ( w k , X ) ] − E [ ∇ w f ( w ∗ , X ) ] ∣ = ∣ ∇ w f ( w k , x k ) − E [ ∇ w f ( w k , X ) ] ∣ ∣ E [ ∇ w 2 f ( w ~ k , X ) ( w k − w ∗ ) ] ∣ \Delta_k=\frac{|\nabla_wf(w_k,x_k)-\mathbb E[\nabla_wf(w_k,X)]|}{|\mathbb E[\nabla_wf(w_k,X)]-\mathbb E[\nabla_wf(w^*,X)]|}=\frac{|\nabla_wf(w_k,x_k)-\mathbb E[\nabla_wf(w_k,X)]|}{|\mathbb E[\nabla^2_wf(\widetilde w_k,X)(w_k -w^*)]|} Δk=E[wf(wk,X)]E[wf(w,X)]wf(wk,xk)E[wf(wk,X)]=E[w2f(w k,X)(wkw)]wf(wk,xk)E[wf(wk,X)]

最后一个 等号 运用了 中值定理, 其中 w ~ k ∈ [ w k , w ∗ ] \widetilde w_k\in[w_k,w^*] w k[wk,w]

假设 f f f 是严格凸的。 即对于 所有的 w , X w, X w,X, 均满足 ∇ w 2 f ≥ c > 0 \nabla_w^2f \geq c>0 w2fc>0, 其中 c c c 为正。

则 上式的分母

∣ E [ ∇ w 2 f ( w ~ k , X ) ( w k − w ∗ ) ] ∣ = ∣ E [ ∇ w 2 f ( w ~ k , X ) ] ( w k − w ∗ ) ∣ = ∣ E [ ∇ w 2 f ( w ~ k , X ) ] ∣ ⋅ ∣ ( w k − w ∗ ) ∣ ≥ c ∣ w k − w ∗ ∣

|E[w2f(w~k,X)(wkw)]|=|E[w2f(w~k,X)](wkw)|=|E[w2f(w~k,X)]|·|(wkw)|c|wkw|
E[w2f(w k,X)(wkw)]=E[w2f(w k,X)](wkw)=E[w2f(w k,X)](wkw)cwkw

Δ k ≤ ∣ ∇ w f ( w k , x k ) ⏞ 随机梯度 − E [ ∇ w f ( w k , X ) ] ⏞ 真实梯度 ∣ c ∣ w k − w ∗ ∣ ⏟ w k  到最优解  w ∗  的距离 \Delta_k \leq \frac{|\overbrace{\nabla_wf(w_k,x_k)}^{随机梯度}-\overbrace{\mathbb E[\nabla_wf(w_k,X)]}^{真实梯度}|}{c\underbrace{|w_k-w^*|}_{w_k~到最优解 ~w^*~ 的距离}} Δkcwk 到最优解 w 的距离 wkwwf(wk,xk) 随机梯度E[wf(wk,X)] 真实梯度

相对误差 Δ k \Delta_k Δk ∣ w k − w ∗ ∣ |w_k-w^*| wkw 成反比

∣ w k − w ∗ ∣ |w_k-w^*| wkw 较大时, Δ k \Delta_k Δk 较小,SGD 表现与 GD 相似。
w k w_k wk 接近 w ∗ w^* w 时,相对误差 Δ k \Delta_k Δk 可能较大, w ∗ w^* w 附近的收敛表现出更大的随机性。

例子:
X ∈ R 2 X\in \mathbb R^2 XR2:表示平面上的随机位置。
它在以原点为中心,边长为 20 的正方形区域内分布均匀。
真实均值为 E [ X ] = 0 \mathbb E[X]=0 E[X]=0
均值估计基于 100 个 独立同分布 样本 { x i } i = 1 100 \{x_i\}_{i=1}^{100} {xi}i=1100

MBGD(Mini-Batch Gradient Descent, MBGD):小批量梯度下降

在这里插入图片描述

虽然 平均值的初始估计值 离真实值很远,但 SGD 估计值可以快速接近真实值的邻域
当估计值接近真实值时,它表现出一定的随机性,但仍逐渐接近真实值。

————

6.4.3 SGD 的确定性公式

待优化问题:【不包含 任何随机变量, 如 X X X
min ⁡ w J ( w ) = 1 n ∑ i = 1 n f ( w , x i ) \min\limits_w J(w)=\frac{1}{n}\sum\limits_{i=1}^{n}f(w,x_i) wminJ(w)=n1i=1nf(w,xi)

  • f ( w , x i ) f(w, x_i) f(w,xi): 参数化 方程
  • w w w: 待优化 参数
  • 数据 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n

——————
求解该问题的 梯度下降算法:
w k + 1 = w k − α k ∇ w J ( w k ) = w k − α k 1 n ∑ i = 1 n ∇ w f ( w k , x i ) w_{k+1}=w_k-\alpha_k\nabla_wJ(w_k)=w_k-\alpha_k\frac{1}{n}\sum\limits_{i=1}^{n}\nabla_wf(w_k,x_i) wk+1=wkαkwJ(wk)=wkαkn1i=1nwf(wk,xi)
每次 随机抽取 一个样本进行迭代运算
w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k,x_k) wk+1=wkαkwf(wk,xk)

问题:
这个算法是 SGD 吗?它不涉及任何随机变量或期望值。
我们应该如何使用有限数集 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n?我们应该把这些数字按一定的顺序排序,然后一个一个地使用吗?或者我们应该从集合中随机抽取一个数字?

回答:
引入 一个 随机变量 X X X, 使得
p ( X = x i ) = 1 n p(X=x_i) = \frac{1}{n} p(X=xi)=n1

确定性 优化问题 ——> 随机

min ⁡ w J ( w ) = 1 n ∑ i = 1 n f ( w , x i ) = E [ f ( w , X ) ] \min\limits_wJ(w)=\frac{1}{n}\sum\limits_{i=1}^{n}f(w,x_i)=\mathbb E[f(w, X)] wminJ(w)=n1i=1nf(w,xi)=E[f(w,X)]

随机抽取 x i x_i xi, 抽取可能重复。

6.4.4 BGD, MBGD, SGD

P4

已知 X X X 的随机样本集 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n, 最小化 J ( w ) = E [ f ( w , X ) ] J(w)=\mathbb E[f(w,X)] J(w)=E[f(w,X)]
BGD 算法【批次 梯度下降】: 每次迭代 用完所有 的样本。

  • n n n 很大时, 批次梯度 1 n ∑ i = 1 n ∇ w f ( w k , x i ) \frac{1}{n}\sum\limits_{i=1}^{n}\nabla_wf(w_k,x_i) n1i=1nwf(wk,xi) 接近 真实梯度 E [ ∇ w f ( w k , X ) ] \mathbb E[\nabla_wf(w_k,X)] E[wf(wk,X)]
  • w k + 1 = w k − α k 1 n ∑ i = 1 n ∇ w f ( w k , x i ) w_{k+1}=w_k-\alpha_k\frac{1}{n}\sum\limits_{i=1}^n\nabla_wf(w_k,x_i) wk+1=wkαkn1i=1nwf(wk,xi)
      ~  

MBGD 算法【小批次 梯度下降】: 大小为 m m m I k \mathcal I_k Ik { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n 的子集。

  • w k + 1 = w k − α k 1 m ∑ j ∈ I k ∇ w f ( w k , x j ) w_{k+1}=w_k-\alpha_k\frac{1}{ \textcolor{blue}m}\sum\limits_{\textcolor{blue}{j\in\mathcal I_k}}\nabla_wf(w_k,x_j) wk+1=wkαkm1jIkwf(wk,xj)
  • m 越大, 收敛越快
      ~  

SGD 算法 【随机 梯度下降】: x k x_k xk 在时间 k k k { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n 随机抽取。

  • w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k,x_k) wk+1=wkαkwf(wk,xk)

与 SGD 相比,MBGD随机性更小,因为它使用了更多的样本,而不是 SGD 中的一个样本。
与 BGD 相比,MBGD 不需要在每次迭代中使用所有的样本,使其更加灵活和高效
m = 1 时,MBGD 变为 SGD。
如果 m = n,严格来说 MBGD 不成为 BGD,因为 MBGD 使用随机获取的 n 个样本,而 BGD 使用所有 n 个样本。特别是,MBGD 可能多次使用 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n 中的值,而 BGD 只使用每个样本一次。

在这里插入图片描述

均值问题 估计:
在这里插入图片描述

6.4.5 SGD 的收敛性

在这里插入图片描述

条件 (a) 是关于 f f f 的凸性的,它要求 f f f 的曲率上下有界。当 w w w 是向量时, ∇ w 2 f ( w , X ) \nabla_w^2f(w, X) w2f(w,X) 是著名的 Hessian 矩阵。

证明 SGD 算法是一种特殊的 RM 算法

SGD:求解 使得 J ( w ) = E [ f ( w , X ) ] J(w)={\mathbb E}[f(w, X)] J(w)=E[f(w,X)] 最小 的 w w w

这个问题 可以转成 寻根问题 ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] = 0 \nabla_wJ(w)={\mathbb E}[\nabla_wf(w, X)]=0 wJ(w)=E[wf(w,X)]=0

g ( w ) = ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] g(w)=\nabla_wJ(w)={\mathbb E}[\nabla_wf(w, X)] g(w)=wJ(w)=E[wf(w,X)]

SGD 的目标变成 找 g ( w ) = 0 g(w)=0 g(w)=0 的根, 这正是 RM 算法 可求解的问题。

设测量值 g ~ = ∇ w f ( w , x ) \widetilde g=\nabla_wf(w,x) g =wf(w,x), 其中 x x x X X X 的样本。

g ~ ( w , η ) = ∇ w f ( w , x ) = E [ ∇ w f ( w , X ) ] + ∇ w f ( w , x ) − E [ ∇ w f ( w , X ) ] ⏟ η ( w , x )

g~(w,η)=wf(w,x)=E[wf(w,X)]+wf(w,x)E[wf(w,X)]η(w,x)
g (w,η)=wf(w,x)=E[wf(w,X)]+η(w,x) wf(w,x)E[wf(w,X)]

求解 g ( w ) = 0 g(w)=0 g(w)=0 的 RM 算法为:

w k + 1 = w k − a k g ~ ( w k , η k ) = w k − a k ∇ w f ( w k , x k ) w_{k+1}=w_k-a_k\widetilde g(w_k,\eta_k)=w_k-a_k\nabla_wf(w_k,x_k) wk+1=wkakg (wk,ηk)=wkakwf(wk,xk)

在这里插入图片描述

SGD 算法是一种特殊的 RM 算法。

证明 满足 定理 6.1 的 3 个条件: 即 RM 算法收敛需要满足的 3 个条件

在这里插入图片描述

1、定理 6.4 满足: c 1 ≤ ∇ w 2 f ( w , X ) ≤ c 2 c_1\leq\nabla^2_wf(w, X)\leq c_2 c1w2f(w,X)c2

∇ w g ( w ) = ∇ w E [ ∇ w f ( w , X ) ] = E [ ∇ w 2 f ( w , X ) ] \nabla_wg(w)=\nabla_w\mathbb E[\nabla_wf(w,X)]=\mathbb E[\nabla_w^2f(w, X)] wg(w)=wE[wf(w,X)]=E[w2f(w,X)]
c 1 ≤ ∇ w g ( w ) ≤ c 2 c_1\leq\nabla_wg(w)\leq c_2 c1wg(w)c2, 满足 定理 6.1

2、条件相同
3、定理 6.4 要求 { x k } \{x_k\} {xk} 是独立同分布的,有 E x k [ ∇ w f ( w , x k ) ] = E [ ∇ w f ( w , X ) ] {\mathbb E}_{x_k}[\nabla_wf(w,x_k)]={\mathbb E}[\nabla_wf(w,X)] Exk[wf(w,xk)]=E[wf(w,X)]

E [ η k ∣ H k ] = E [ ∇ w f ( w k , x k ) − E [ ∇ w f ( w , X ) ] ∣ H k ] {\mathbb E}[\eta_k|{\mathcal H}_k]={\mathbb E}[\nabla_wf(w_k,x_k)-{\mathbb E}[\nabla_wf(w,X)]|{\mathcal H}_k] E[ηkHk]=E[wf(wk,xk)E[wf(w,X)]Hk]

因为 H k = { w k , w k − 1 , ⋯   } {\mathcal H}_k=\{w_k,w_{k-1},\cdots\} Hk={wk,wk1,} x k x_k xk H k {\mathcal H}_k Hk 无关。

E [ η k ∣ H k ] = E x k [ ∇ w f ( w k , x k ) ] − E [ ∇ w f ( w , X ) ] = 0 {\mathbb E}[\eta_k|{\mathcal H}_k]={\mathbb E}_{x_k}[\nabla_wf(w_k,x_k)]-{\mathbb E}[\nabla_wf(w,X)]=0 E[ηkHk]=Exk[wf(wk,xk)]E[wf(w,X)]=0

类似地, 可证 给定任意 x x x, 对所有 w w w,若是 ∣ ∇ w f ( w , x ) ∣ < ∞ |\nabla_wf(w,x)|<\infty wf(w,x)<,则 E [ η k 2 ∣ H k ] < ∞ {\mathbb E}[\eta_k^2|{\mathcal H}_k]< \infty E[ηk2Hk]<

  • ???

————————

小结:

在这里插入图片描述

在这里插入图片描述

时间差分学习算法 可以被视为 随机近似算法

————————————————
6.6
stochastic approximation 随机近似是指解决寻根或优化问题的一大类随机迭代算法。

时序差分学习算法类似于均值估计随机近似算法。

——————
习题
在这里插入图片描述

在这里插入图片描述

以下内容待完善

▢ 6.3 Dvoretzkys 收敛定理 【选学】

用于证明 RM 算法 的收敛性

在这里插入图片描述

在 RM 算法中,系数序列 { α k } \{\alpha_k\} {αk} 是确定的。然而,Dvoretzky 定理允许 { α k } \{\alpha_k\} {αk} { β k } \{β_k\} {βk} 是依赖于 H k {\mathcal H}_k Hk 的随机变量。因此,当 α k \alpha_k αk β k \beta_k βk △ k △k k 的函数时,它更有用。

考虑随机过程: Δ k + 1 = ( 1 − α k ) Δ k + β k η k \Delta_{k+1}=(1-\alpha_k)\Delta_k+\beta_k\eta_k Δk+1=(1αk)Δk+βkηk

H k = { w k , w k − 1 , ⋯   , η k − 1 , ⋯   , α k − 1 , ⋯   , β k − 1 , ⋯   } \mathcal H_k=\{w_k,w_{k-1},\cdots,\eta_{k-1},\cdots,\alpha_{k-1},\cdots,\beta_{k-1},\cdots\} Hk={wk,wk1,,ηk1,,αk1,,βk1,}

证明:

h k = Δ k 2 h_k=\Delta_k^2 hk=Δk2

h k + 1 − h k = Δ k + 1 2 − Δ k 2 = ( Δ k + 1 − Δ k ) ( Δ k + 1 + Δ k ) = ( ( 1 − α k ) Δ k + β k η k − Δ k ) ( ( 1 − α k ) Δ k + β k η k + Δ k ) = ( − α k Δ k + β k η k ) [ ( 2 − α k ) Δ k + β k η k ] = − α k ( 2 − α k ) Δ k 2 + β k 2 η k 2 + 2 ( 1 − α k ) β k η k Δ k

hk+1hk=Δk+12Δk2=(Δk+1Δk)(Δk+1+Δk)=((1αk)Δk+βkηkΔk)((1αk)Δk+βkηk+Δk)=(αkΔk+βkηk)[(2αk)Δk+βkηk]=αk(2αk)Δk2+βk2ηk2+2(1αk)βkηkΔk
hk+1hk=Δk+12Δk2=(Δk+1Δk)(Δk+1+Δk)=((1αk)Δk+βkηkΔk)((1αk)Δk+βkηk+Δk)=(αkΔk+βkηk)[(2αk)Δk+βkηk]=αk(2αk)Δk2+βk2ηk2+2(1αk)βkηkΔk

等式两边取期望

E [ h k + 1 − h k ∣ H k ] = E [ − α k ( 2 − α k ) Δ k 2 ∣ H k ] + E [ β k 2 η k 2 ∣ H k ] + E [ 2 ( 1 − α k ) β k η k Δ k ∣ H k ] {\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]={\mathbb E}[-\alpha_k(2-\alpha_k)\Delta_k^2|{\mathcal H}_k]+{\mathbb E}[\beta_k^2\eta_k^2|{\mathcal H}_k]+{\mathbb E}[2(1-\alpha_k)\beta_k\eta_k\Delta_k|{\mathcal H}_k] E[hk+1hkHk]=E[αk(2αk)Δk2Hk]+E[βk2ηk2Hk]+E[2(1αk)βkηkΔkHk]

考虑 α k \alpha_k αk β k \beta_k βk H k \mathcal H_k Hk 确定的 简单情况:

E [ h k + 1 − h k ∣ H k ] = − α k ( 2 − α k ) Δ k 2 + β k 2 E [ η k 2 ∣ H k ] + 2 ( 1 − α k ) β k Δ k E [ η k ∣ H k ] {\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]=-\alpha_k(2-\alpha_k)\Delta_k^2+\beta_k^2{\mathbb E}[\eta_k^2|{\mathcal H}_k]+2(1-\alpha_k)\beta_k\Delta_k{\mathbb E}[\eta_k|{\mathcal H}_k] E[hk+1hkHk]=αk(2αk)Δk2+βk2E[ηk2Hk]+2(1αk)βkΔkE[ηkHk]

E [ h k + 1 − h k ∣ H k ] = − α k ( 2 − α k ) Δ k 2 + β k 2 E [ η k 2 ∣ H k ] ≤ β k 2 C {\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]=-\alpha_k(2-\alpha_k)\Delta_k^2+\beta_k^2{\mathbb E}[\eta_k^2|{\mathcal H}_k]\leq\beta^2_kC E[hk+1hkHk]=αk(2αk)Δk2+βk2E[ηk2Hk]βk2C

∑ k = 1 ∞ E [ h k + 1 − h k ∣ H k ] ≤ ∑ k = 1 ∞ β k 2 C < ∞ \sum\limits_{k=1}^\infty{\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]\leq\sum\limits_{k=1}^\infty\beta^2_kC<\infty k=1E[hk+1hkHk]k=1βk2C<

接下来 确认 Δ k \Delta_k Δk 的收敛值

∑ k = 1 ∞ α k ( 2 − α k ) Δ k 2 = ∑ k = 1 ∞ β k 2 E [ η k 2 ∣ H k ] − E [ h k + 1 − h k ∣ H k ] \sum\limits_{k=1}^\infty\alpha_k(2-\alpha_k)\Delta_k^2=\sum\limits_{k=1}^\infty\beta_k^2{\mathbb E}[\eta_k^2|{\mathcal H}_k]-{\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k] k=1αk(2αk)Δk2=k=1βk2E[ηk2Hk]E[hk+1hkHk]

先说明等号两边均有界

由于 ∑ k = 1 ∞ α k = ∞ \sum\limits_{k=1}^\infty\alpha_k=\infty k=1αk=, 则 Δ k → 0 \Delta_k\to0 Δk0

6.3.2 应用到 均值估计

w ∗ = E [ X ] w^*=\mathbb E[X] w=E[X]

均值估计算法 w k + 1 = w k + α k ( x k − w k ) w_{k+1}=w_k+\alpha_k(x_k-w_k) wk+1=wk+αk(xkwk) 可以重写为

w k + 1 − w ∗ = w k − w ∗ + α k ( x k − w ∗ + w ∗ − w k ) w_{k+1}-w^*=w_k-w^*+\alpha_k(x_k-w^*+w^*-w_k) wk+1w=wkw+αk(xkw+wwk)

Δ = w − w ∗ \Delta=w-w^* Δ=ww

Δ k + 1 = Δ k + α k ( x k − w ∗ − Δ k ) = ( 1 − α k ) Δ k + α k ( x k − w ∗ ) ⏟ η k

Δk+1=Δk+αk(xkwΔk)=(1αk)Δk+αk(xkw)ηk
Δk+1=Δk+αk(xkwΔk)=(1αk)Δk+αkηk (xkw)

因为 { k } \{k\} {k} 是 i.i.d,我们有 E [ x k ∣ H k ] = E [ x k ] = w ∗ {\mathbb E}[x_k|{\mathcal H}_k] = {\mathbb E}[x_k] = w^* E[xkHk]=E[xk]=w
因此,当 x k x_k xk 的方差有限时,
E [ η k ∣ H k ] = E [ x k − w ∗ ∣ H k ] = 0 {\mathbb E}[\eta_k|{\mathcal H}_k]={\mathbb E}[x_k-w^*|{\mathcal H}_k]=0 E[ηkHk]=E[xkwHk]=0
E [ η k 2 ∣ H k ] = E [ x k 2 ∣ H k ] − ( w ∗ ) 2 = E [ x k 2 ] − ( w ∗ ) 2 = 0 {\mathbb E}[\eta_k^2|{\mathcal H}_k]={\mathbb E}[x_k^2|{\mathcal H}_k]-(w^*)^2={\mathbb E}[x_k^2]-(w^*)^2=0 E[ηk2Hk]=E[xk2Hk](w)2=E[xk2](w)2=0 是有界的。
根据 Dvoretzky 定理,我们得出 △ k △_k k 收敛于零,因此 w k w_k wk 几乎肯定地收敛到 w ∗ = E [ X ] w^* = {\mathbb E}[X] w=E[X]

6.3.3 应用到 Robbins-Monro 定理

通过 Dvoretzky 定理 证明 RM 定理

RM 算法的目标是 找 g ( w ) = 0 g(w)=0 g(w)=0 的根。

假设 这个根是 w ∗ w^* w g ( w ∗ ) = 0 g(w^*)=0 g(w)=0

RM 算法:
w k + 1 = w k − a k g ~ ( w k , η k ) = w k − a k [ g ( w k ) + η k ]

wk+1=wkakg~(wk,ηk)=wkak[g(wk)+ηk]
wk+1=wkakg (wk,ηk)=wkak[g(wk)+ηk]

w k + 1 − w ∗ = w k − w ∗ − a k [ g ( w k ) − g ( w ∗ ) + η k ]

wk+1w=wkwak[g(wk)g(w)+ηk]
wk+1w=wkwak[g(wk)g(w)+ηk]

g ( w k ) − g ( w ∗ ) = ∇ w g ( w k ′ ) ( w k − w ∗ ) g(w_k)-g(w^*)=\nabla_wg(w^\prime_k)(w_k-w^*) g(wk)g(w)=wg(wk)(wkw), 其中 w k ′ ∈ [ w k , w ∗ ] w_k^\prime\in[w_k,w^*] wk[wk,w]

Δ k ≐ w k − w ∗ \Delta_k\doteq w_k-w^* Δkwkw

Δ k + 1 = Δ k − a k [ ∇ w g ( w k ′ ) ( w k − w ∗ ) + η k ] = Δ k − a ∇ w g ( w k ′ ) Δ k + a k ( − η k ) = [ 1 − a k ∇ w g ( w k ′ ) ⏟ α k ] Δ k + a k ( − η k )

Δk+1=Δkak[wg(wk)(wkw)+ηk]=Δkawg(wk)Δk+ak(ηk)=[1akwg(wk)αk]Δk+ak(ηk)
Δk+1=Δkak[wg(wk)(wkw)+ηk]=Δkawg(wk)Δk+ak(ηk)=[1αk akwg(wk)]Δk+ak(ηk)

由于假设 0 < c 1 ≤ ∇ w g ( w ) ≤ c 2 0 < c_1≤\nabla_wg(w)≤c_2 0<c1wg(w)c2 ∇ w g ( w ) \nabla _wg(w) wg(w) 有界。

由于假设 ∑ k = 1 ∞ a k = ∞ , ∑ k = 1 ∞ a k 2 < ∞ \sum_{k=1}^\infty a_k=\infty, \sum_{k=1}^\infty a_k^2<\infty k=1ak=k=1ak2<,可知 ∑ k = 1 ∞ α k = ∞ , ∑ k = 1 ∞ α k 2 < ∞ \sum_{k=1}^\infty \alpha_k=\infty, \sum_{k=1}^\infty \alpha_k^2<\infty k=1αk=k=1αk2<

满足 Dvoretzky 定理中的所有条件,因此 Δ k \Delta_k Δk 几乎肯定收敛于零。

α k \alpha_k αk 是依赖于 w k w_k wk 的随机序列,而不是确定性序列,Dvoretzky 定理仍然适用。

6.3.4

将 Dvoretzky 定理扩展为一个可以处理多个变量的更一般的定理。这个一般定理可以用来分析 Q-learning 等随机迭代算法的收敛性。

  • P122 - P123

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/867246
推荐阅读
相关标签
  

闽ICP备14008679号