赞
踩
PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍
- 1、视频 1 + 学堂在线 习题
- 2、视频 2,过 电子书 是否遗漏, 【下载:本章 PDF GitHub页面链接】
- 3、MOOC 习题过一遍
- 跳过的部分
学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接
PPT和书籍下载网址: 【GitHub链接】
Stochastic Approximation:随机近似
Stochastic Gradient Descent:随机梯度下降
第 7 章 的 Temporal-Difference Learning 是 Stochastic Approximation 的一个特殊情况。
随机梯度下降 是 RM 算法的特例
4、Batch Gradient Descent、Mini-batch Gradient Descent、Stochastic Gradient Descent。
蒙特卡洛估计 的基本思想: 当 N → ∞ , x ˉ → E [ X ] 当 N \to \infty,\bar{x}\to\mathbb{E}[X] 当N→∞,xˉ→E[X]
强化学习中的 状态值 和 动作值等 均定义为 均值。
计算
x
ˉ
\bar x
xˉ 的两种方式:
1、收集所有样本,然后计算平均值。
2、增量和迭代的方式计算平均值。
计算 x ˉ \bar{x} xˉ 的迭代 增量式 方法:
前 k 个 样本的均值: w k + 1 = 1 k ∑ i = 1 k x i , k = 1 , 2 , . . . w_{k+1}=\frac{1}{k}\sum\limits_{i=1}^kx_i ,k=1, 2,... wk+1=k1i=1∑kxi,k=1,2,...
前 k - 1 个 样本的均值: w k = 1 k − 1 ∑ i = 1 k − 1 x i , k = 2 , 3 w_k=\frac{1}{k-1}\sum\limits_{i=1}^{k-1}x_i,k= 2, 3 wk=k−11i=1∑k−1xi,k=2,3
w k + 1 = 1 k ∑ i = 1 k x i = 1 k ( ∑ i = 1 k − 1 x i + x k ) = 1 k ( ( k − 1 ) w k + x k ) = w k − 1 k ( w k − x k )wk+1=k1i=1∑kxi=k1(i=1∑k−1xi+xk)=k1((k−1)wk+xk)=wk−k1(wk−xk)wk+1=1k∑i=1kxi=1k(∑i=1k−1xi+xk)=1k((k−1)wk+xk)=wk−1k(wk−xk)
优点:一旦接收到样本,可以立即得到均值估计。
由于样本不足,最初的近似可能不准确。
随着样本量的增加,可以根据大数定律逐步提高估计精度。
w
k
+
1
=
w
k
−
α
k
(
w
k
−
x
k
)
w_{k+1}=w_k-\textcolor{blue}{\alpha_k}(w_k-x_k)
wk+1=wk−αk(wk−xk)
特殊的 随机近似算法, 特殊的随机梯度下降算法。
Stochastic approximation (SA):随机近似
SA 是指解决 寻根 或 优化问题的一大类随机迭代算法。
相比于其它寻根算法,SA 的强大之处在于它不需要知道 目标函数的表达式及其导数。
Robbins-Monro (RM) 算法:
stochastic gradient descent 算法 是 RM 算法的特殊形式。
可用于 分析 均值估计算法。
问题:找方程的根。
g ( w ) = 0 g(w)=0 g(w)=0
w ∈ R w\in\mathbb R w∈R 待解变量
g g g: R → R \mathbb R\to\mathbb R R→R 方程
——————
假设 最小优化问题的目标函数为 J ( w ) J(w) J(w)
该优化问题可转成 g ( w ) = ▽ w J ( w ) = 0 g(w)=\triangledown_wJ(w)=0 g(w)=▽wJ(w)=0
如何计算
g
(
w
)
=
0
g(w) =0
g(w)=0 的根?
情形 1 :
g
g
g 的表达式或它的导数已知,数值算法。
情形 2 :
g
g
g 的表达式未知 ——> 神经网络 表示函数
通过 RM 算法 求解 以下问题:
w k + 1 = w k − a k g ~ ( w k , η k ) , k = 1 , 2 , 3 , . . . w_{k+1}=w_k-a_k\widetilde{g}(w_k,\eta_k), ~~~~~~k=1,2,3,... wk+1=wk−akg (wk,ηk), k=1,2,3,...
- w k w_k wk: 根的第 k k k 次估计值。
- 第 k k k 次带误差的观测值: g ~ ( w k , η k ) = g ( w k ) + η k \widetilde{g}(w_k,\eta_k)=g(w_k)+\eta_k g (wk,ηk)=g(wk)+ηk
- 正 系数 a k a_k ak
函数 g ( w ) g(w) g(w) 是黑盒, 算法依赖数据。
无模型 ——> 提供 数据 亦可求解
为什么 RM 算法 可以 找到 g ( w ) = 0 g(w) =0 g(w)=0 的根 ?
示例:直观说明 RM 算法 为什么收敛
求解 g ( w ) = tanh ( w − 1 ) = 0 g(w)=\tanh (w-1)=0 g(w)=tanh(w−1)=0 的根。
g(w) 的根 w ∗ = 1 w^*=1 w∗=1
为了简化,不考虑 误差。 RM 算法求解该问题的过程如下:参数: w 1 = 3 , a k = 1 / k , η k ≡ 0 w_1=3,a_k=1/k,\eta_k\equiv0 w1=3,ak=1/k,ηk≡0
w k + 1 = w k − a k g ( w k ) w_{k+1}=w_k-a_kg(w_k) wk+1=wk−akg(wk)
仿真结果: w k w_k wk 收敛到根 w ∗ = 1 w^*=1 w∗=1
~
本次迭代 w k + 1 w_{k+1} wk+1 比上一次迭代 w k w_k wk更接近真值 w ∗ w^* w∗。
1、当 w k > w ∗ w_k>w^* wk>w∗,有 g ( w k ) > 0 g(w_k)>0~~~~ g(wk)>0 【即 w k > 1 w_k>1 wk>1 时, g ( w k ) = tanh ( w k − 1 ) > 0 g(w_k)=\tanh (w_k-1)>0 g(wk)=tanh(wk−1)>0】
w k + 1 = w k − a k g ( w k ) < w k w_{k+1}=w_k-a_kg(w_k) < w_k wk+1=wk−akg(wk)<wk。【减掉正的】。 w k + 1 w_{k+1} wk+1 比 w k w_k wk更接近真值 w ∗ w^* w∗。
~
~
2、当 w k < w ∗ w_k<w^* wk<w∗,根据方程有 g ( w k ) < 0 g(w_k)<0 g(wk)<0,
w k + 1 = w k − a k g ( w k ) > w k w_{k+1}=w_k-a_kg(w_k) > w_k wk+1=wk−akg(wk)>wk。【加 正的】。 w k + 1 w_{k+1} wk+1 比 w k w_k wk更接近真值 w ∗ w^* w∗。
~
$\equiv$
≡
~~~\equiv
≡
给 一个
w
w
w,观察输出
y
y
y, 若是 大于 0, 就小一些,若是 小于 0 ,就大一些。
那变化多少? ——> RM 算法:
−
a
k
g
(
w
k
)
-a_kg(w_k)
−akg(wk)
Robbins-Monro 定理:
如果以下 3 个条件满足, 则
w
k
w_k
wk 以概率 1 收敛到
w
∗
w^*
w∗。其中 根
w
∗
w^*
w∗ 满足
g
(
w
∗
)
=
0
g(w^*)=0
g(w∗)=0
1)对所有
w
w
w,
0
<
c
1
≤
▽
w
g
(
w
)
≤
c
2
0 < c_1 \leq \triangledown_wg(w) \leq c_2
0<c1≤▽wg(w)≤c2; 【要求 梯度 有界】
2)
∑
k
=
1
∞
a
k
=
∞
\sum\limits_{k=1}^\infty a_k=\infty
k=1∑∞ak=∞, 且
∑
k
=
1
∞
a
k
2
<
∞
\sum\limits_{k=1}^\infty a_k^2 < \infty
k=1∑∞ak2<∞; 【对 正系数
a
k
a_k
ak 的要求:最终收敛到 0 (后面), 同时不要太快收敛到 0 (前面)】
3)
E
[
η
k
∣
H
k
]
=
0
\mathbb E[\eta_k|\mathcal H_k]=0
E[ηk∣Hk]=0 且
E
[
η
k
2
∣
H
k
]
<
∞
\mathbb E[\eta_k^2|\mathcal H_k]< \infty
E[ηk2∣Hk]<∞ 其中
H
k
=
{
w
k
,
w
k
−
1
,
.
.
.
}
\mathcal H_k=\{w_k,w_{k-1},...\}
Hk={wk,wk−1,...}。【对 测量误差
η
k
\eta_k
ηk 的要求】。
with probability 1
(w.p.1)
————————
对 每个条件的进一步说明:
1)对所有
w
w
w,
0
<
c
1
≤
▽
w
g
(
w
)
≤
c
2
0 < c_1 \leq \triangledown_wg(w) \leq c_2
0<c1≤▽wg(w)≤c2;
2) ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k=\infty k=1∑∞ak=∞ 且 ∑ k = 1 ∞ a k 2 < ∞ \sum\limits_{k=1}^\infty a_k^2 < \infty k=1∑∞ak2<∞;
3) E [ η k ∣ H k ] = 0 \mathbb E[\eta_k|\mathcal H_k]=0 E[ηk∣Hk]=0 且 E [ η k 2 ∣ H k ] < ∞ \mathbb E[\eta_k^2|\mathcal H_k]< \infty E[ηk2∣Hk]<∞
————————
针对 条件 2 进一步讨论:
为什么 条件 ∑ k = 1 ∞ a k 2 < ∞ \sum\limits_{k=1}^\infty a_k^2 < \infty k=1∑∞ak2<∞ 重要?
即为什么 需要 k → ∞ k \to \infty k→∞ 时, a k → 0 a_k\to0 ak→0。
根据之前的迭代式, 有:
w
k
+
1
−
w
k
=
−
a
k
g
~
(
w
k
,
η
k
)
w_{k+1}-w_k=-a_k\widetilde g(w_k,\eta_k)
wk+1−wk=−akg
(wk,ηk)
当 a k → 0 a_k\to0 ak→0,右边 → 0 \to0 →0。则左边 w k + 1 − w k → 0 w_{k+1}-w_k \to 0 wk+1−wk→0 【 w k + 1 w_{k+1} wk+1 和 w k w_k wk互相靠近】。这样 w k w_k wk 才可能 最终收敛。否则 w k w_k wk 在 k → ∞ k\to \infty k→∞ 时仍可能 波动。
2_1 为什么 条件 ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k=\infty k=1∑∞ak=∞ 重要?
即为什么 需要 a k a_k ak 不要 太快收敛到 0?
w
2
=
w
1
−
a
1
g
~
(
w
1
−
η
1
)
w
3
=
w
2
−
a
2
g
~
(
w
2
−
η
2
)
.
.
.
w
k
+
1
=
w
k
−
a
k
g
~
(
w
k
−
η
k
)
累加,得到
w
∞
−
w
1
=
∑
k
=
1
∞
a
k
g
~
(
w
k
,
η
k
)
w_\infty-w_1=\sum\limits_{k=1}^\infty a_k\widetilde g(w_k,\eta_k)
w∞−w1=k=1∑∞akg
(wk,ηk)
如果
∑
k
=
1
∞
a
k
<
∞
\sum\limits_{k=1}^\infty a_k<\infty
k=1∑∞ak<∞ ,等式右侧可能是 有界的。
此时有
∣
w
∞
−
w
1
∣
=
∣
∑
k
=
1
∞
a
k
g
~
(
w
k
,
η
k
)
∣
≤
b
|w_\infty-w_1|=|\sum\limits_{k=1}^\infty a_k\widetilde g(w_k,\eta_k)|\leq b
∣w∞−w1∣=∣k=1∑∞akg
(wk,ηk)∣≤b
若希望最终收敛, w ∞ = w ∗ w_\infty = w^* w∞=w∗,有 ∣ w ∗ − w 1 ∣ ≤ b |w^*-w_1|\leq b ∣w∗−w1∣≤b
考虑 初步猜测的 w 1 w_1 w1 离 w ∗ w^* w∗ 比较远, 满足 ∣ w ∗ − w 1 ∣ > b |w^*-w_1|> b ∣w∗−w1∣>b。矛盾,意味着 这种情况下不收敛。
因此,需要 ∑ k = 1 ∞ a k = ∞ \sum\limits_{k=1}^\infty a_k \textcolor{red} = \infty k=1∑∞ak=∞ , 用于保证 选择的 w 1 w_1 w1 不管离 w ∗ w^* w∗ 多远, 最后都能收敛。
————————
什么样的
a
k
a_k
ak 满足上面的条件 2 呢?
即
∑
k
=
1
∞
a
k
2
<
∞
\sum\limits_{k=1}^\infty a_k^2 < \infty
k=1∑∞ak2<∞ 且
∑
k
=
1
∞
a
k
=
∞
\sum\limits_{k=1}^\infty a_k=\infty
k=1∑∞ak=∞;
a k = 1 k a_k=\frac{1}{k} ak=k1
lim n → ∞ ( ∑ k = 1 n 1 k − ln n ) = κ \lim\limits_{n\to\infty}(\sum\limits_{k=1}^n\frac{1}{k}-\ln n)=\kappa n→∞lim(k=1∑nk1−lnn)=κ。【欧拉常数:Euler-Mascheroni constant、Euler’s constant。 κ ≈ 0.577 \kappa \approx0.577 κ≈0.577】
∑ k = 1 ∞ 1 k 2 = π 2 6 < ∞ \sum\limits_{k=1}^\infty\frac{1}{k^2}=\frac{\pi^2}{6}<\infty k=1∑∞k21=6π2<∞ 【Basel problem】
$\kappa$
κ
~~\kappa
κ
如果不满足这三个条件,算法可能无法工作。
在许多强化学习算法中, a k a_k ak 通常被选为一个足够小的常数。在这种情况下,虽然不满足第二个条件,但算法仍然可以有效地工作。
——————
均值估计算法: w k + 1 = w k + α k ( x k − w k ) w_{k+1}=w_k+\alpha_k(x_k-w_k) wk+1=wk+αk(xk−wk)
以下 证明 该均值估计算法 是 RM 算法的特例。
???
考虑 方程 g ( w ) = ˙ w − E [ X ] g(w)\dot{=}w-\mathbb E[X] g(w)=˙w−E[X]
目标是 求解 g ( w ) = 0 g(w)=0 g(w)=0
包含误差的观测值 g ~ ( w , η ) = w − x = ( w − E [ X ] ) + ( E [ X ] − x ) = ˙ g ( w ) + η \widetilde g(w, \eta) =w-x=(w-\mathbb E[X])+(\mathbb E[X]-x)\dot{=}g(w)+\eta g (w,η)=w−x=(w−E[X])+(E[X]−x)=˙g(w)+η
求解 g ( x ) = 0 g(x)=0 g(x)=0 的 RM算法为:
w k + 1 = w k − α k g ~ ( w k , η k ) = w k − α k ( w k − x k ) w_{k+1}=w_k-\alpha_k\widetilde g(w_k,\eta_k)=w_k-\alpha_k(w_k-x_k) wk+1=wk−αkg (wk,ηk)=wk−αk(wk−xk)
???
————————————
— [选学] Dvoretzkys 收敛定理
考虑 随机过程 w k + 1 = ( 1 − α k ) w k + β k η k w_{k+1}=(1-\alpha_k)w_k+\beta_k\eta_k wk+1=(1−αk)wk+βkηk。
其中 { α k } k = 1 ∞ \{\alpha_k\}_{k=1}^\infty {αk}k=1∞, { β k } k = 1 ∞ \{\beta_k\}_{k=1}^\infty {βk}k=1∞, { η k } k = 1 ∞ \{\eta_k\}_{k=1}^\infty {ηk}k=1∞ 为 随机序列。
对所有的 k k k, α k ≥ 0 , β k ≥ 0 \alpha_k\geq 0, \beta_k\geq0 αk≥0,βk≥0。
若是满足 以下两个条件,则 w k w_k wk 以概率 1 收敛到 0 。
1) ∑ k = 1 ∞ α k = ∞ , ∑ k = 1 ∞ α k 2 < ∞ ; ∑ k = 1 ∞ β k 2 < ∞ 。 \sum\limits_{k=1}^\infty\alpha_k=\infty, \sum\limits_{k=1}^\infty\alpha_k^2<\infty;\sum\limits_{k=1}^\infty\beta_k^2<\infty。 k=1∑∞αk=∞,k=1∑∞αk2<∞;k=1∑∞βk2<∞。w.p.1;
2) E [ η k ∣ H k ] = 0 , E [ η k 2 ∣ H k ] ≤ C \mathbb E[\eta_k|\mathcal H_k]=0, \mathbb E[\eta^2_k|\mathcal H_k]\leq C~~ E[ηk∣Hk]=0,E[ηk2∣Hk]≤C w.p.1; 其中 H k = { w k , w k − 1 , . . . , η k − 1 , . . . , α k − 1 , . . . , β k − 1 , . . . } \mathcal H_k=\{w_k,w_{k-1}, ...,\eta_{k-1},...,\alpha_{k-1},...,\beta_{k-1},...\} Hk={wk,wk−1,...,ηk−1,...,αk−1,...,βk−1,...}
一个比 RM 定理更一般的结果。可用来证明RM 定理
可分析均值估计问题
它的扩展可以用来分析 Q 学习和 TD 学习算法。
P3
均值估计算法: 通过迭代方法求解 期望值。
SGD 是 RM 算法的特殊情况,
均值估计算法 是 SGD 的特殊情况。
均值估计 ∈ S G D , S G D ∈ R M 均值估计 \in SGD, ~~~SGD \in RM 均值估计∈SGD, SGD∈RM
问题: 找 使得函数值最小 的 w w w : min w J ( w ) = E [ f ( w , X ) ] \min\limits_{w}J(w)=\mathbb E[f(w, X)] wminJ(w)=E[f(w,X)]
待优化参数: w w w
随机变量 X X X,期望 是关于 X X X 的。
3 种求解方法
最小化
方法一: 梯度下降 (gradient descent, GD)
w k + 1 = w k − α k ∇ w E [ f ( w k , X ) ] = w k − α k E [ ∇ w f ( w k , X ) ] w_{k+1}=w_k-\alpha_k\nabla_w \mathbb E[f(w_k, X)]=w_k-\alpha_k \mathbb E[\nabla_wf(w_k, X)] wk+1=wk−αk∇wE[f(wk,X)]=wk−αkE[∇wf(wk,X)]
- 不足: 关于 X X X 的期望值 难以 获得
~方法二:批量梯度下降 (batch gradient descent,BGD)
根据 批数据, 通过迭代的均值估计算法 获取 期望值。
E [ ∇ w f ( w k , X ) ] ≈ 1 n ∑ i = 1 n ∇ w f ( w k , x i ) \mathbb E[\nabla_wf(w_k, X)]\approx\frac{1}{n}\sum\limits_{i=1}^{n}\nabla_wf(w_k, x_i)~~~~ E[∇wf(wk,X)]≈n1i=1∑n∇wf(wk,xi) .采样,取平均,近似。【蒙特卡洛估计基本思想】
w k + 1 = w k − α k 1 n ∑ i = 1 n ∇ w f ( w k , x i ) w_{k+1}=w_k- \alpha_k \frac{1}{n} \sum\limits_{i=1}^{n} \nabla_wf(w_k,x_i) wk+1=wk−αkn1i=1∑n∇wf(wk,xi)
批次里迭代 求解 期望值。 外面的迭代 求解 w w w
- 不足: 每个 w k w_k wk 的一次迭代需要很多样本
~方法三: 随机梯度下降 (stochastic gradient descent ,SGD)
w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k, x_k) wk+1=wk−αk∇wf(wk,xk)
- 和 梯度下降 GD 相比, 真实 梯度 E [ ∇ w f ( w k , X ) ] \mathbb E[\nabla_wf(w_k,X)] E[∇wf(wk,X)] ——> 随机梯度 ∇ w f ( w k , x k ) \nabla_wf(w_k,x_k) ∇wf(wk,xk)
- 和 批次梯度下降 BGD 相比: n = 1
——————
问题:
min w J ( w ) = E [ f ( w , X ) ] = E [ 1 2 ∣ ∣ w − X ∣ ∣ 2 ] \min\limits_wJ(w)=\mathbb E[f(w, X)]=\mathbb E\Big[ \frac{1}{2}||w-X||^2\Big] wminJ(w)=E[f(w,X)]=E[21∣∣w−X∣∣2]
f ( w , X ) = 1 2 ∣ ∣ w − X ∣ ∣ 2 f(w, X)=\frac{1}{2}||w-X||^2 f(w,X)=21∣∣w−X∣∣2
∇ w f ( w , X ) = w − X \nabla_wf(w, X)=w-X ∇wf(w,X)=w−X
可以通过求解 ∇ w J ( w ) = 0 ∇_wJ(w) = 0 ∇wJ(w)=0,获得最优解 w ∗ = E [ X ] w^∗= {\mathbb E}[X] w∗=E[X]。
因此,这个优化问题等价于均值估计问题。
————
1、最优解 w ∗ = E [ X ] w^*=\mathbb E[X] w∗=E[X]
~
2、用 梯度下降GD 算法 求解该问题
w k + 1 = w k − α k ∇ w J ( w k ) = w k − α k E [ ∇ w f ( w k , X ) ] = w k − α k E [ w k − X ]wk+1=wk−αk∇wJ(wk)=wk−αkE[∇wf(wk,X)]=wk−αkE[wk−X]wk+1=wk−αk∇wJ(wk)=wk−αkE[∇wf(wk,X)]=wk−αkE[wk−X]
- 这种梯度下降算法不适用,因为右边的 E [ w k − X ] {\mathbb E}[w_k - X] E[wk−X] 或 E [ X ] {\mathbb E}[X] E[X] 是未知的(事实上,这是我们需要求解的)。
3、用 SGD 算法 求解该问题
w k + 1 = w k − α k ∇ w f ( w k , x k ) = w k − α k ( w k − x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k,x_k)=w_k-\alpha_k(w_k-x_k) wk+1=wk−αk∇wf(wk,xk)=wk−αk(wk−xk)
————
和之前的 均值估计 算法相同。 均值估计 算法 ∈ S G D \in SGD ∈SGD
SGD 算法的思想是用随机梯度代替真实梯度。然而,由于随机梯度是随机的,有人可能会问 SGD 的收敛速度是慢的还是随机的。幸运的是,SGD 通常可以有效地收敛。
一个有趣的收敛模式是,当估计 w k w_k wk 远离最优解 w ∗ w^* w∗ 时,它的行为类似于常规梯度下降算法。
只有当 w k w_k wk 接近 w ∗ w^* w∗ 时,SGD 的收敛才表现出更大的随机性。
待分析的问题:
GD:
w
k
+
1
=
w
k
−
α
k
E
[
∇
w
f
(
w
k
,
X
)
]
w_{k+1}=w_k-\alpha_k\mathbb E[\nabla_wf(w_k, X)]
wk+1=wk−αkE[∇wf(wk,X)]
SGD: w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k \nabla_wf(w_k, x_k) wk+1=wk−αk∇wf(wk,xk)
∇ w f ( w k , x k ) \nabla_wf(w_k, x_k) ∇wf(wk,xk) 可视为 E [ ∇ w f ( w k , X ) ] \mathbb E[\nabla_wf(w_k, X)] E[∇wf(wk,X)] 的 包含误差的测量值。
∇
w
f
(
w
k
,
x
k
)
=
E
[
∇
w
f
(
w
k
,
X
)
]
+
∇
w
f
(
w
k
,
x
k
)
−
E
[
∇
w
f
(
w
k
,
X
)
]
⏟
η
\nabla_wf(w_k, x_k)=\mathbb E[\nabla_wf(w_k, X)] + \underbrace{\nabla_wf(w_k, x_k)-\mathbb E[\nabla_wf(w_k, X)]}_{\eta}
∇wf(wk,xk)=E[∇wf(wk,X)]+η
∇wf(wk,xk)−E[∇wf(wk,X)]
由于
∇
w
f
(
w
k
,
x
k
)
≠
E
[
∇
w
f
(
w
k
,
X
)
]
\nabla_wf(w_k, x_k)\neq\mathbb E[\nabla_wf(w_k, X)]
∇wf(wk,xk)=E[∇wf(wk,X)], SGD 算法 是否满足 当
k
→
∞
k\to\infty
k→∞ 时,
w
k
→
w
∗
w_k \to w^*
wk→w∗
——————
以下 证明 SGD 是一种特殊的 RM 算法
SGD 的目标 是 最小化 J ( w ) = E [ f ( w , X ) ] J(w)=\mathbb E[f(w, X)] J(w)=E[f(w,X)]
该问题 可转成 一个 寻根 问题: ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] = 0 \nabla_wJ(w)=\mathbb E[\nabla_wf(w, X)]=0 ∇wJ(w)=E[∇wf(w,X)]=0
令 g ( w ) = ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] g(w)=\nabla_wJ(w)=\mathbb E[\nabla_wf(w,X)] g(w)=∇wJ(w)=E[∇wf(w,X)]
SGD 的目标为 找 g ( w ) = 0 g(w)=0 g(w)=0 的根。
测量值 g ~ ( w , η ) = ∇ w f ( w , x ) = E [ ∇ w f ( w , X ) ] ⏟ g ( w ) + ∇ w f ( w , x ) − E [ ∇ w f ( w , X ) ] ⏟ η \widetilde g(w,\eta)=\nabla_wf(w, x)=\underbrace{\mathbb E[\nabla_w f(w, X)]}_{g(w)} + \underbrace{\nabla_wf(w, x)-\mathbb E[\nabla_wf(w, X)]}_{\eta} g (w,η)=∇wf(w,x)=g(w) E[∇wf(w,X)]+η ∇wf(w,x)−E[∇wf(w,X)]
求解
g
(
w
)
=
0
g(w)=0
g(w)=0 的 RM 算法为
w
k
+
1
=
w
k
−
a
k
g
~
(
w
k
,
η
k
)
=
w
k
−
a
k
∇
w
f
(
w
k
,
x
k
)
w_{k+1}=w_k-a_k\widetilde g(w_k,\eta_k)=w_k-a_k\nabla_wf(w_k,x_k)
wk+1=wk−akg
(wk,ηk)=wk−ak∇wf(wk,xk)
SGD 是一种特殊的 RM 算法。
-——————
part 6 SGD 的一些特性
SGD 是 把 GD 中 的 真实梯度 用 随机梯度 替换,会不会 造成 SGD 的收敛的随机性比较大呢?
1、当 w k w_k wk 离 w ∗ w^* w∗ 比较远时, 下降过程 和 普通梯度下降 类似; 比较近时下降过程 随机。
分析过程:
考虑 随机梯度 和 批次梯度的 相对误差:
Δ k = ˙ ∣ ∇ w f ( w k , x k ) − E [ ∇ w f ( w k , X ) ] ∣ ∣ E [ ∇ w f ( w k , X ) ] ∣ \Delta_k\dot=\frac{|\nabla_wf(w_k,x_k)-\mathbb E[\nabla_wf(w_k,X)]|}{|\mathbb E[\nabla_wf(w_k,X)]|} Δk=˙∣E[∇wf(wk,X)]∣∣∇wf(wk,xk)−E[∇wf(wk,X)]∣
$\nabla$
∇
~~\nabla
∇
由于 E [ ∇ w f ( w ∗ , X ) ] = 0 \mathbb E[\nabla_wf(w^*,X)]=0 E[∇wf(w∗,X)]=0
Δ k = ∣ ∇ w f ( w k , x k ) − E [ ∇ w f ( w k , X ) ] ∣ ∣ E [ ∇ w f ( w k , X ) ] − E [ ∇ w f ( w ∗ , X ) ] ∣ = ∣ ∇ w f ( w k , x k ) − E [ ∇ w f ( w k , X ) ] ∣ ∣ E [ ∇ w 2 f ( w ~ k , X ) ( w k − w ∗ ) ] ∣ \Delta_k=\frac{|\nabla_wf(w_k,x_k)-\mathbb E[\nabla_wf(w_k,X)]|}{|\mathbb E[\nabla_wf(w_k,X)]-\mathbb E[\nabla_wf(w^*,X)]|}=\frac{|\nabla_wf(w_k,x_k)-\mathbb E[\nabla_wf(w_k,X)]|}{|\mathbb E[\nabla^2_wf(\widetilde w_k,X)(w_k -w^*)]|} Δk=∣E[∇wf(wk,X)]−E[∇wf(w∗,X)]∣∣∇wf(wk,xk)−E[∇wf(wk,X)]∣=∣E[∇w2f(w k,X)(wk−w∗)]∣∣∇wf(wk,xk)−E[∇wf(wk,X)]∣
最后一个 等号 运用了 中值定理, 其中 w ~ k ∈ [ w k , w ∗ ] \widetilde w_k\in[w_k,w^*] w k∈[wk,w∗]
假设 f f f 是严格凸的。 即对于 所有的 w , X w, X w,X, 均满足 ∇ w 2 f ≥ c > 0 \nabla_w^2f \geq c>0 ∇w2f≥c>0, 其中 c c c 为正。
则 上式的分母
∣
E
[
∇
w
2
f
(
w
~
k
,
X
)
(
w
k
−
w
∗
)
]
∣
=
∣
E
[
∇
w
2
f
(
w
~
k
,
X
)
]
(
w
k
−
w
∗
)
∣
=
∣
E
[
∇
w
2
f
(
w
~
k
,
X
)
]
∣
⋅
∣
(
w
k
−
w
∗
)
∣
≥
c
∣
w
k
−
w
∗
∣
Δ k ≤ ∣ ∇ w f ( w k , x k ) ⏞ 随机梯度 − E [ ∇ w f ( w k , X ) ] ⏞ 真实梯度 ∣ c ∣ w k − w ∗ ∣ ⏟ w k 到最优解 w ∗ 的距离 \Delta_k \leq \frac{|\overbrace{\nabla_wf(w_k,x_k)}^{随机梯度}-\overbrace{\mathbb E[\nabla_wf(w_k,X)]}^{真实梯度}|}{c\underbrace{|w_k-w^*|}_{w_k~到最优解 ~w^*~ 的距离}} Δk≤cwk 到最优解 w∗ 的距离 ∣wk−w∗∣∣∇wf(wk,xk) 随机梯度−E[∇wf(wk,X)] 真实梯度∣
相对误差 Δ k \Delta_k Δk 和 ∣ w k − w ∗ ∣ |w_k-w^*| ∣wk−w∗∣ 成反比
当
∣
w
k
−
w
∗
∣
|w_k-w^*|
∣wk−w∗∣ 较大时,
Δ
k
\Delta_k
Δk 较小,SGD 表现与 GD 相似。
当
w
k
w_k
wk 接近
w
∗
w^*
w∗ 时,相对误差
Δ
k
\Delta_k
Δk 可能较大,
w
∗
w^*
w∗ 附近的收敛表现出更大的随机性。
例子:
X ∈ R 2 X\in \mathbb R^2 X∈R2:表示平面上的随机位置。
它在以原点为中心,边长为 20 的正方形区域内分布均匀。
真实均值为 E [ X ] = 0 \mathbb E[X]=0 E[X]=0,
均值估计基于 100 个 独立同分布 样本 { x i } i = 1 100 \{x_i\}_{i=1}^{100} {xi}i=1100
MBGD(Mini-Batch Gradient Descent, MBGD):小批量梯度下降
虽然 平均值的初始估计值 离真实值很远,但 SGD 估计值可以快速接近真实值的邻域。
当估计值接近真实值时,它表现出一定的随机性,但仍逐渐接近真实值。
————
待优化问题:【不包含 任何随机变量, 如 X X X】
min w J ( w ) = 1 n ∑ i = 1 n f ( w , x i ) \min\limits_w J(w)=\frac{1}{n}\sum\limits_{i=1}^{n}f(w,x_i) wminJ(w)=n1i=1∑nf(w,xi)
- f ( w , x i ) f(w, x_i) f(w,xi): 参数化 方程
- w w w: 待优化 参数
- 数据 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n
——————
求解该问题的 梯度下降算法:
w k + 1 = w k − α k ∇ w J ( w k ) = w k − α k 1 n ∑ i = 1 n ∇ w f ( w k , x i ) w_{k+1}=w_k-\alpha_k\nabla_wJ(w_k)=w_k-\alpha_k\frac{1}{n}\sum\limits_{i=1}^{n}\nabla_wf(w_k,x_i) wk+1=wk−αk∇wJ(wk)=wk−αkn1i=1∑n∇wf(wk,xi)
每次 随机抽取 一个样本进行迭代运算
w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k,x_k) wk+1=wk−αk∇wf(wk,xk)
问题:
这个算法是 SGD 吗?它不涉及任何随机变量或期望值。
我们应该如何使用有限数集
{
x
i
}
i
=
1
n
\{x_i\}_{i=1}^{n}
{xi}i=1n?我们应该把这些数字按一定的顺序排序,然后一个一个地使用吗?或者我们应该从集合中随机抽取一个数字?
回答:
引入 一个 随机变量
X
X
X, 使得
p
(
X
=
x
i
)
=
1
n
p(X=x_i) = \frac{1}{n}
p(X=xi)=n1
确定性 优化问题 ——> 随机
min w J ( w ) = 1 n ∑ i = 1 n f ( w , x i ) = E [ f ( w , X ) ] \min\limits_wJ(w)=\frac{1}{n}\sum\limits_{i=1}^{n}f(w,x_i)=\mathbb E[f(w, X)] wminJ(w)=n1i=1∑nf(w,xi)=E[f(w,X)]
随机抽取 x i x_i xi, 抽取可能重复。
P4
已知 X X X 的随机样本集 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n, 最小化 J ( w ) = E [ f ( w , X ) ] J(w)=\mathbb E[f(w,X)] J(w)=E[f(w,X)]
BGD 算法【批次 梯度下降】: 每次迭代 用完所有 的样本。
- 当 n n n 很大时, 批次梯度 1 n ∑ i = 1 n ∇ w f ( w k , x i ) \frac{1}{n}\sum\limits_{i=1}^{n}\nabla_wf(w_k,x_i) n1i=1∑n∇wf(wk,xi) 接近 真实梯度 E [ ∇ w f ( w k , X ) ] \mathbb E[\nabla_wf(w_k,X)] E[∇wf(wk,X)]
- w k + 1 = w k − α k 1 n ∑ i = 1 n ∇ w f ( w k , x i ) w_{k+1}=w_k-\alpha_k\frac{1}{n}\sum\limits_{i=1}^n\nabla_wf(w_k,x_i) wk+1=wk−αkn1i=1∑n∇wf(wk,xi)
~MBGD 算法【小批次 梯度下降】: 大小为 m m m 的 I k \mathcal I_k Ik 为 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n 的子集。
- w k + 1 = w k − α k 1 m ∑ j ∈ I k ∇ w f ( w k , x j ) w_{k+1}=w_k-\alpha_k\frac{1}{ \textcolor{blue}m}\sum\limits_{\textcolor{blue}{j\in\mathcal I_k}}\nabla_wf(w_k,x_j) wk+1=wk−αkm1j∈Ik∑∇wf(wk,xj)
- m 越大, 收敛越快
~SGD 算法 【随机 梯度下降】: x k x_k xk 在时间 k k k 从 { x i } i = 1 n \{x_i\}_{i=1}^{n} {xi}i=1n 随机抽取。
- w k + 1 = w k − α k ∇ w f ( w k , x k ) w_{k+1}=w_k-\alpha_k\nabla_wf(w_k,x_k) wk+1=wk−αk∇wf(wk,xk)
与 SGD 相比,MBGD 的随机性更小,因为它使用了更多的样本,而不是 SGD 中的一个样本。
与 BGD 相比,MBGD 不需要在每次迭代中使用所有的样本,使其更加灵活和高效。
m = 1 时,MBGD 变为 SGD。
如果 m = n,严格来说 MBGD 不成为 BGD,因为 MBGD 使用随机获取的 n 个样本,而 BGD 使用所有 n 个样本。特别是,MBGD 可能多次使用
{
x
i
}
i
=
1
n
\{x_i\}_{i=1}^{n}
{xi}i=1n 中的值,而 BGD 只使用每个样本一次。
均值问题 估计:
条件 (a) 是关于 f f f 的凸性的,它要求 f f f 的曲率上下有界。当 w w w 是向量时, ∇ w 2 f ( w , X ) \nabla_w^2f(w, X) ∇w2f(w,X) 是著名的 Hessian 矩阵。
证明 SGD 算法是一种特殊的 RM 算法。
SGD:求解 使得 J ( w ) = E [ f ( w , X ) ] J(w)={\mathbb E}[f(w, X)] J(w)=E[f(w,X)] 最小 的 w w w
这个问题 可以转成 寻根问题 ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] = 0 \nabla_wJ(w)={\mathbb E}[\nabla_wf(w, X)]=0 ∇wJ(w)=E[∇wf(w,X)]=0。
令 g ( w ) = ∇ w J ( w ) = E [ ∇ w f ( w , X ) ] g(w)=\nabla_wJ(w)={\mathbb E}[\nabla_wf(w, X)] g(w)=∇wJ(w)=E[∇wf(w,X)]
SGD 的目标变成 找 g ( w ) = 0 g(w)=0 g(w)=0 的根, 这正是 RM 算法 可求解的问题。
设测量值 g ~ = ∇ w f ( w , x ) \widetilde g=\nabla_wf(w,x) g =∇wf(w,x), 其中 x x x 是 X X X 的样本。
g
~
(
w
,
η
)
=
∇
w
f
(
w
,
x
)
=
E
[
∇
w
f
(
w
,
X
)
]
+
∇
w
f
(
w
,
x
)
−
E
[
∇
w
f
(
w
,
X
)
]
⏟
η
(
w
,
x
)
求解 g ( w ) = 0 g(w)=0 g(w)=0 的 RM 算法为:
w k + 1 = w k − a k g ~ ( w k , η k ) = w k − a k ∇ w f ( w k , x k ) w_{k+1}=w_k-a_k\widetilde g(w_k,\eta_k)=w_k-a_k\nabla_wf(w_k,x_k) wk+1=wk−akg (wk,ηk)=wk−ak∇wf(wk,xk)
SGD 算法是一种特殊的 RM 算法。
证明 满足 定理 6.1 的 3 个条件: 即 RM 算法收敛需要满足的 3 个条件
1、定理 6.4 满足: c 1 ≤ ∇ w 2 f ( w , X ) ≤ c 2 c_1\leq\nabla^2_wf(w, X)\leq c_2 c1≤∇w2f(w,X)≤c2
而
∇
w
g
(
w
)
=
∇
w
E
[
∇
w
f
(
w
,
X
)
]
=
E
[
∇
w
2
f
(
w
,
X
)
]
\nabla_wg(w)=\nabla_w\mathbb E[\nabla_wf(w,X)]=\mathbb E[\nabla_w^2f(w, X)]
∇wg(w)=∇wE[∇wf(w,X)]=E[∇w2f(w,X)]
则
c
1
≤
∇
w
g
(
w
)
≤
c
2
c_1\leq\nabla_wg(w)\leq c_2
c1≤∇wg(w)≤c2, 满足 定理 6.1
2、条件相同
3、定理 6.4 要求
{
x
k
}
\{x_k\}
{xk} 是独立同分布的,有
E
x
k
[
∇
w
f
(
w
,
x
k
)
]
=
E
[
∇
w
f
(
w
,
X
)
]
{\mathbb E}_{x_k}[\nabla_wf(w,x_k)]={\mathbb E}[\nabla_wf(w,X)]
Exk[∇wf(w,xk)]=E[∇wf(w,X)]
E [ η k ∣ H k ] = E [ ∇ w f ( w k , x k ) − E [ ∇ w f ( w , X ) ] ∣ H k ] {\mathbb E}[\eta_k|{\mathcal H}_k]={\mathbb E}[\nabla_wf(w_k,x_k)-{\mathbb E}[\nabla_wf(w,X)]|{\mathcal H}_k] E[ηk∣Hk]=E[∇wf(wk,xk)−E[∇wf(w,X)]∣Hk]
因为 H k = { w k , w k − 1 , ⋯ } {\mathcal H}_k=\{w_k,w_{k-1},\cdots\} Hk={wk,wk−1,⋯} 且 x k x_k xk 与 H k {\mathcal H}_k Hk 无关。
E [ η k ∣ H k ] = E x k [ ∇ w f ( w k , x k ) ] − E [ ∇ w f ( w , X ) ] = 0 {\mathbb E}[\eta_k|{\mathcal H}_k]={\mathbb E}_{x_k}[\nabla_wf(w_k,x_k)]-{\mathbb E}[\nabla_wf(w,X)]=0 E[ηk∣Hk]=Exk[∇wf(wk,xk)]−E[∇wf(w,X)]=0
类似地, 可证 给定任意 x x x, 对所有 w w w,若是 ∣ ∇ w f ( w , x ) ∣ < ∞ |\nabla_wf(w,x)|<\infty ∣∇wf(w,x)∣<∞,则 E [ η k 2 ∣ H k ] < ∞ {\mathbb E}[\eta_k^2|{\mathcal H}_k]< \infty E[ηk2∣Hk]<∞。
————————
小结:
时间差分学习算法 可以被视为 随机近似算法
————————————————
6.6
stochastic approximation 随机近似是指解决寻根或优化问题的一大类随机迭代算法。
时序差分学习算法类似于均值估计的随机近似算法。
——————
习题
以下内容待完善
用于证明 RM 算法 的收敛性
在 RM 算法中,系数序列 { α k } \{\alpha_k\} {αk} 是确定的。然而,Dvoretzky 定理允许 { α k } \{\alpha_k\} {αk}, { β k } \{β_k\} {βk} 是依赖于 H k {\mathcal H}_k Hk 的随机变量。因此,当 α k \alpha_k αk 或 β k \beta_k βk 是 △ k △k △k 的函数时,它更有用。
考虑随机过程: Δ k + 1 = ( 1 − α k ) Δ k + β k η k \Delta_{k+1}=(1-\alpha_k)\Delta_k+\beta_k\eta_k Δk+1=(1−αk)Δk+βkηk
H k = { w k , w k − 1 , ⋯ , η k − 1 , ⋯ , α k − 1 , ⋯ , β k − 1 , ⋯ } \mathcal H_k=\{w_k,w_{k-1},\cdots,\eta_{k-1},\cdots,\alpha_{k-1},\cdots,\beta_{k-1},\cdots\} Hk={wk,wk−1,⋯,ηk−1,⋯,αk−1,⋯,βk−1,⋯}
证明:
令 h k = Δ k 2 h_k=\Delta_k^2 hk=Δk2
h
k
+
1
−
h
k
=
Δ
k
+
1
2
−
Δ
k
2
=
(
Δ
k
+
1
−
Δ
k
)
(
Δ
k
+
1
+
Δ
k
)
=
(
(
1
−
α
k
)
Δ
k
+
β
k
η
k
−
Δ
k
)
(
(
1
−
α
k
)
Δ
k
+
β
k
η
k
+
Δ
k
)
=
(
−
α
k
Δ
k
+
β
k
η
k
)
[
(
2
−
α
k
)
Δ
k
+
β
k
η
k
]
=
−
α
k
(
2
−
α
k
)
Δ
k
2
+
β
k
2
η
k
2
+
2
(
1
−
α
k
)
β
k
η
k
Δ
k
等式两边取期望
E [ h k + 1 − h k ∣ H k ] = E [ − α k ( 2 − α k ) Δ k 2 ∣ H k ] + E [ β k 2 η k 2 ∣ H k ] + E [ 2 ( 1 − α k ) β k η k Δ k ∣ H k ] {\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]={\mathbb E}[-\alpha_k(2-\alpha_k)\Delta_k^2|{\mathcal H}_k]+{\mathbb E}[\beta_k^2\eta_k^2|{\mathcal H}_k]+{\mathbb E}[2(1-\alpha_k)\beta_k\eta_k\Delta_k|{\mathcal H}_k] E[hk+1−hk∣Hk]=E[−αk(2−αk)Δk2∣Hk]+E[βk2ηk2∣Hk]+E[2(1−αk)βkηkΔk∣Hk]
考虑 α k \alpha_k αk 和 β k \beta_k βk 由 H k \mathcal H_k Hk 确定的 简单情况:
E [ h k + 1 − h k ∣ H k ] = − α k ( 2 − α k ) Δ k 2 + β k 2 E [ η k 2 ∣ H k ] + 2 ( 1 − α k ) β k Δ k E [ η k ∣ H k ] {\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]=-\alpha_k(2-\alpha_k)\Delta_k^2+\beta_k^2{\mathbb E}[\eta_k^2|{\mathcal H}_k]+2(1-\alpha_k)\beta_k\Delta_k{\mathbb E}[\eta_k|{\mathcal H}_k] E[hk+1−hk∣Hk]=−αk(2−αk)Δk2+βk2E[ηk2∣Hk]+2(1−αk)βkΔkE[ηk∣Hk]
E [ h k + 1 − h k ∣ H k ] = − α k ( 2 − α k ) Δ k 2 + β k 2 E [ η k 2 ∣ H k ] ≤ β k 2 C {\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]=-\alpha_k(2-\alpha_k)\Delta_k^2+\beta_k^2{\mathbb E}[\eta_k^2|{\mathcal H}_k]\leq\beta^2_kC E[hk+1−hk∣Hk]=−αk(2−αk)Δk2+βk2E[ηk2∣Hk]≤βk2C
∑ k = 1 ∞ E [ h k + 1 − h k ∣ H k ] ≤ ∑ k = 1 ∞ β k 2 C < ∞ \sum\limits_{k=1}^\infty{\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k]\leq\sum\limits_{k=1}^\infty\beta^2_kC<\infty k=1∑∞E[hk+1−hk∣Hk]≤k=1∑∞βk2C<∞
接下来 确认 Δ k \Delta_k Δk 的收敛值
∑ k = 1 ∞ α k ( 2 − α k ) Δ k 2 = ∑ k = 1 ∞ β k 2 E [ η k 2 ∣ H k ] − E [ h k + 1 − h k ∣ H k ] \sum\limits_{k=1}^\infty\alpha_k(2-\alpha_k)\Delta_k^2=\sum\limits_{k=1}^\infty\beta_k^2{\mathbb E}[\eta_k^2|{\mathcal H}_k]-{\mathbb E}[h_{k+1}-h_k|{\mathcal H}_k] k=1∑∞αk(2−αk)Δk2=k=1∑∞βk2E[ηk2∣Hk]−E[hk+1−hk∣Hk]
先说明等号两边均有界
由于 ∑ k = 1 ∞ α k = ∞ \sum\limits_{k=1}^\infty\alpha_k=\infty k=1∑∞αk=∞, 则 Δ k → 0 \Delta_k\to0 Δk→0
设 w ∗ = E [ X ] w^*=\mathbb E[X] w∗=E[X]
均值估计算法 w k + 1 = w k + α k ( x k − w k ) w_{k+1}=w_k+\alpha_k(x_k-w_k) wk+1=wk+αk(xk−wk) 可以重写为
w k + 1 − w ∗ = w k − w ∗ + α k ( x k − w ∗ + w ∗ − w k ) w_{k+1}-w^*=w_k-w^*+\alpha_k(x_k-w^*+w^*-w_k) wk+1−w∗=wk−w∗+αk(xk−w∗+w∗−wk)
令 Δ = w − w ∗ \Delta=w-w^* Δ=w−w∗
Δ
k
+
1
=
Δ
k
+
α
k
(
x
k
−
w
∗
−
Δ
k
)
=
(
1
−
α
k
)
Δ
k
+
α
k
(
x
k
−
w
∗
)
⏟
η
k
因为
{
k
}
\{k\}
{k} 是 i.i.d,我们有
E
[
x
k
∣
H
k
]
=
E
[
x
k
]
=
w
∗
{\mathbb E}[x_k|{\mathcal H}_k] = {\mathbb E}[x_k] = w^*
E[xk∣Hk]=E[xk]=w∗。
因此,当
x
k
x_k
xk 的方差有限时,
E
[
η
k
∣
H
k
]
=
E
[
x
k
−
w
∗
∣
H
k
]
=
0
{\mathbb E}[\eta_k|{\mathcal H}_k]={\mathbb E}[x_k-w^*|{\mathcal H}_k]=0
E[ηk∣Hk]=E[xk−w∗∣Hk]=0
E
[
η
k
2
∣
H
k
]
=
E
[
x
k
2
∣
H
k
]
−
(
w
∗
)
2
=
E
[
x
k
2
]
−
(
w
∗
)
2
=
0
{\mathbb E}[\eta_k^2|{\mathcal H}_k]={\mathbb E}[x_k^2|{\mathcal H}_k]-(w^*)^2={\mathbb E}[x_k^2]-(w^*)^2=0
E[ηk2∣Hk]=E[xk2∣Hk]−(w∗)2=E[xk2]−(w∗)2=0 是有界的。
根据 Dvoretzky 定理,我们得出
△
k
△_k
△k 收敛于零,因此
w
k
w_k
wk 几乎肯定地收敛到
w
∗
=
E
[
X
]
w^* = {\mathbb E}[X]
w∗=E[X]。
通过 Dvoretzky 定理 证明 RM 定理
RM 算法的目标是 找 g ( w ) = 0 g(w)=0 g(w)=0 的根。
假设 这个根是 w ∗ w^* w∗, g ( w ∗ ) = 0 g(w^*)=0 g(w∗)=0
RM 算法:
w
k
+
1
=
w
k
−
a
k
g
~
(
w
k
,
η
k
)
=
w
k
−
a
k
[
g
(
w
k
)
+
η
k
]
w
k
+
1
−
w
∗
=
w
k
−
w
∗
−
a
k
[
g
(
w
k
)
−
g
(
w
∗
)
+
η
k
]
g ( w k ) − g ( w ∗ ) = ∇ w g ( w k ′ ) ( w k − w ∗ ) g(w_k)-g(w^*)=\nabla_wg(w^\prime_k)(w_k-w^*) g(wk)−g(w∗)=∇wg(wk′)(wk−w∗), 其中 w k ′ ∈ [ w k , w ∗ ] w_k^\prime\in[w_k,w^*] wk′∈[wk,w∗]
令 Δ k ≐ w k − w ∗ \Delta_k\doteq w_k-w^* Δk≐wk−w∗
Δ
k
+
1
=
Δ
k
−
a
k
[
∇
w
g
(
w
k
′
)
(
w
k
−
w
∗
)
+
η
k
]
=
Δ
k
−
a
∇
w
g
(
w
k
′
)
Δ
k
+
a
k
(
−
η
k
)
=
[
1
−
a
k
∇
w
g
(
w
k
′
)
⏟
α
k
]
Δ
k
+
a
k
(
−
η
k
)
由于假设 0 < c 1 ≤ ∇ w g ( w ) ≤ c 2 0 < c_1≤\nabla_wg(w)≤c_2 0<c1≤∇wg(w)≤c2, ∇ w g ( w ) \nabla _wg(w) ∇wg(w) 有界。
由于假设 ∑ k = 1 ∞ a k = ∞ , ∑ k = 1 ∞ a k 2 < ∞ \sum_{k=1}^\infty a_k=\infty, \sum_{k=1}^\infty a_k^2<\infty ∑k=1∞ak=∞,∑k=1∞ak2<∞,可知 ∑ k = 1 ∞ α k = ∞ , ∑ k = 1 ∞ α k 2 < ∞ \sum_{k=1}^\infty \alpha_k=\infty, \sum_{k=1}^\infty \alpha_k^2<\infty ∑k=1∞αk=∞,∑k=1∞αk2<∞。
满足 Dvoretzky 定理中的所有条件,因此 Δ k \Delta_k Δk 几乎肯定收敛于零。
当 α k \alpha_k αk 是依赖于 w k w_k wk 的随机序列,而不是确定性序列,Dvoretzky 定理仍然适用。
6.3.4
将 Dvoretzky 定理扩展为一个可以处理多个变量的更一般的定理。这个一般定理可以用来分析 Q-learning 等随机迭代算法的收敛性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。