赞
踩
在上一篇博客中, 我们介绍了这篇文章 Weighted Sum-Rate Optimization for Intelligent Reflecting Surface Enhanced Wireless Networks 的系统建模和使用分式规划方法对问题的简化。 上一篇的遗留问题是, 具体如何对 IRS 矩阵进行优化。 作者提出了多种算法, 在本篇中会一一介绍, 比如以之命名本篇的ADMM。
通过分式规划, IRS波束成形问题最终可以变成求解如下的子问题:
( P 4 a ) max θ f 4 a ( θ ) s.t. ∣ θ n ∣ 2 ∈ F , ∀ n = 1 , ⋯ , N , (P4a)maxθf4a(θ) s.t. |θn|2∈F,∀n=1,⋯,N, (P4a)θmax s.t. f4a(θ)∣θn∣2∈F,∀n=1,⋯,N,
其中,
f
4
a
(
θ
)
=
−
θ
H
U
θ
+
2
Re
{
θ
H
ν
}
f_{4 a}(\boldsymbol{\theta})=-\boldsymbol{\theta}^{\mathrm{H}} \boldsymbol{U} \boldsymbol{\theta}+2 \operatorname{Re}\left\{\boldsymbol{\theta}^{\mathrm{H}} \boldsymbol{\nu}\right\}
f4a(θ)=−θHUθ+2Re{θHν}
这里 U \boldsymbol{U} U 是半正定已知矩阵, v \mathbf{v} v是已知向量。 显然可知, f 4 a f_{4a} f4a 是一个关于 θ \theta θ 的凹函数。那么如果当 F \mathcal{F} F为凸集时 ( F \mathcal{F} F 的定义见上方), 则可以通过 SDR 方法, 直接进行求解。 然而 SDR 方法有个较大的问题在于, 复杂度过高, 且存在一定的性能损失。 因此作者旨在提出更先进的算法。 由于 ∣ θ n ∣ 2 ∈ F 1 \left|\theta_{n}\right|^{2}\in\mathcal{F}_1 ∣θn∣2∈F1 是凸集, 而 ∣ θ n ∣ 2 ∈ F 2 \left|\theta_{n}\right|^{2}\in\mathcal{F}_2 ∣θn∣2∈F2 和 ∣ θ n ∣ 2 ∈ F 3 \left|\theta_{n}\right|^{2}\in\mathcal{F}_3 ∣θn∣2∈F3 并不是, 因此作者的思想是, 先以 ∣ θ n ∣ 2 ∈ F 1 \left|\theta_{n}\right|^{2}\in\mathcal{F}_1 ∣θn∣2∈F1 求解问题, 然后将该解投影到 F 2 \mathcal{F}_2 F2 和 F 3 \mathcal{F}_3 F3上来取得一个次优解。 因此, 这个算法也被命名为 Nearest Point Projection (NPP)。
循着这个逻辑, 限制条件先成为下面这个凸集的形式,即:
∣
θ
n
∣
2
≤
1
,
∀
n
=
1
,
⋯
,
N
\left|\theta_{n}\right|^{2} \leq 1, \quad \forall n=1, \cdots, N
∣θn∣2≤1,∀n=1,⋯,N
可以等价地写为:
θ
H
e
n
e
n
H
θ
≤
1
,
∀
n
=
1
,
⋯
,
N
(1)
\boldsymbol{\theta}^{\mathrm{H}} \mathbf{e}_{n} \mathbf{e}_{n}^{\mathrm{H}} \boldsymbol{\theta} \leq 1, \quad \forall n=1, \cdots, N \tag{1}
θHenenHθ≤1,∀n=1,⋯,N(1)
其中
e
n
e_n
en 是 elementary vector, 即只有第
n
n
n 个元素为1, 其余为0。 那么通过拉格朗日乘子法,把限制条件写入到目标函数中去, 得到拉格朗日函数为:
G
(
θ
,
λ
)
=
f
4
a
(
θ
)
−
∑
n
=
1
N
λ
n
(
θ
H
e
n
e
n
H
θ
−
1
)
\mathcal{G}(\boldsymbol{\theta}, \boldsymbol{\lambda})=f_{4 a}(\boldsymbol{\theta})-\sum_{n=1}^{N} \lambda_{n}\left(\boldsymbol{\theta}^{\mathrm{H}} \mathbf{e}_{n} \mathbf{e}_{n}^{\mathrm{H}} \boldsymbol{\theta}-1\right)
G(θ,λ)=f4a(θ)−n=1∑Nλn(θHenenHθ−1)
其中
λ
≥
0
\lambda\ge 0
λ≥0 确保
G
\mathcal{G}
G 是
f
4
a
f_{4a}
f4a的上界 (
θ
H
e
n
e
n
H
θ
−
1
≤
0
\boldsymbol{\theta}^{\mathrm{H}} \mathbf{e}_{n} \mathbf{e}_{n}^{\mathrm{H}} \boldsymbol{\theta}-1\le 0
θHenenHθ−1≤0)。那么 通过 拉格朗日对偶法 Lagrange dual decomposition(LDD), 转换为求解对偶问题如下:
(
P
4
b
)
min
λ
L
(
λ
)
=
max
θ
{
G
(
θ
,
λ
)
}
s.t.
λ
n
≥
0
,
∀
n
=
1
,
⋯
,
N
,
(P4b)minλL(λ)=maxθ{G(θ,λ)} s.t. λn≥0,∀n=1,⋯,N,
(P4b)λmin s.t. L(λ)=θmax{G(θ,λ)}λn≥0,∀n=1,⋯,N,
由于
f
4
a
f_{4a}
f4a 本身是凸函数且满足 Slater 条件, 因此对偶问题的解也即原问题的解 (对偶间隙为0)。 (这一块的知识可以参见这篇博客 【凸优化】关于 KKT 条件 及其最优性)同时,
θ
\theta
θ 的解可以直接得出, 仍是对其求导取0, 得到:
θ
∘
=
(
∑
n
=
1
N
λ
n
e
n
e
n
H
+
U
)
−
1
v
\boldsymbol{\theta}^{\circ}=\left(\sum_{n=1}^{N} \lambda_{n} \mathbf{e}_{n} \mathbf{e}_{n}^{\mathrm{H}}+\mathbf{U}\right)^{-1} \mathbf{v}
θ∘=(n=1∑NλnenenH+U)−1v
根据KKT条件, 再将这个表达式带回到 (1)中, 就变成了一个
λ
\lambda
λ 的方程, 并可以通过椭球法 (ellipsoid method) 进行求解。 这也是使用拉格朗日对偶方法来求解带约束凸问题的范式。
有了在 F 1 \mathcal{F}_1 F1约束下的闭式解, 再进行投影就非常简单了 θ n ∙ = Pj F ( θ n ∘ ) \theta_{n}^{\bullet}=\operatorname{Pj}_{\mathcal{F}}\left(\theta_{n}^{\circ}\right) θn∙=PjF(θn∘):
当
F
=
F
2
\mathcal{F}=\mathcal{F}_2
F=F2时,
∠
θ
n
∙
=
∠
θ
n
∘
\angle \theta_{n}^{\bullet}=\angle \theta_{n}^{\circ}
∠θn∙=∠θn∘
当
F
=
F
3
\mathcal{F}=\mathcal{F}_3
F=F3时,
∠
θ
n
∙
=
arg
min
ϕ
n
∈
{
0
,
2
π
τ
,
⋯
,
2
π
(
τ
−
1
)
τ
}
∣
ϕ
n
−
∠
θ
n
∘
∣
.
\angle \theta_{n}^{\bullet}=\arg \min _{\phi_{n} \in\left\{0, \frac{2 \pi}{\tau}, \cdots, \frac{2 \pi(\tau-1)}{\tau}\right\}}\left|\phi_{n}-\angle \theta_{n}^{\circ}\right| .
∠θn∙=argminϕn∈{0,τ2π,⋯,τ2π(τ−1)}∣ϕn−∠θn∘∣.
很显然, 这样的优化是次优的, 且显见有性能损失。 因此, 还需要对算法进一步优化。
这个算法的思路非常简单, 由于限制条件都是针对 θ \theta θ 的单一元素的(和其他元素并不耦合), 因此一个直接的想法就是可以固定向量中的其余元素,单独优化一个元素, 并循环往复进行迭代。
这样做的好处就在于, 此时限制条件极易处理了。 由于这个方法在HBF问题中也极为常用, 因此这里就不展开赘述了。 感兴趣的读者可以自行参考原文,很通俗易懂。 我们重点讲 ADMM 算法。
本文是一个ADMM算法非常非常经典的应用, 强调推荐想学习这个算法的人都可以来看看这个实例。 这里我推荐另外一些资料, 首先就是引用过万的 凸优化宗师 Boyd 的 巨作 Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers, 重点看前五章的内容, 再来看本文的实例就更得心应手一些。 然后推荐另一篇 毫米波信道估计的文章 Wideband MIMO Channel Estimation for Hybrid Beamforming Millimeter Wave Systems via Random Spatial Sampling, 也是使用了 ADMM 算法, 可以作为另一个 深入理解的 实例 。
关于 ADMM 的 最基本思想, 在 ADMM算法简介 一文中, 已经做了基本的介绍。 知乎上也有不错的相关回答。 建议大家先了解其基本概念后, 再往下看。 那么 ADMM 一种常见的使用, 就是应对 有约束的 问题。 具体而言, 对于如下问题:
minimize
f
(
x
)
subject to
x
∈
C
minimizef(x) subject to x∈C
minimize subject to f(x)x∈C
可以将问题等价地写为:
minimize
f
(
x
)
+
g
(
z
)
subject to
x
−
z
=
0
minimizef(x)+g(z) subject to x−z=0
minimize subject to f(x)+g(z)x−z=0
这里
g
(
z
)
g(z)
g(z) 为
C
\mathcal{C}
C 的 示性函数 (indicator function)。示性函数很简单, 就是 当
z
∈
C
z\in \mathcal{C}
z∈C 时,
g
(
z
)
=
0
g(z)=0
g(z)=0, 否则
g
(
z
)
=
∞
g(z)=\infty
g(z)=∞. 而如果了解ADMM算法的话, 可以知道上面这个等效问题,就是ADMM的标准形式。
回到论文中, 对于 (P4a) 这个问题 (本文最开始的那个优化问题), 我们同样可以用类似的思路, 将其转化为:
maximize
f
4
a
(
q
)
−
∑
n
=
1
N
g
(
[
θ
]
n
)
subject to
q
=
θ
maximizef4a(q)−∑Nn=1g([θ]n) subject to q=θ
maximize subject to f4a(q)−∑n=1Ng([θ]n)q=θ
这里由于问题是最大化问题, 所以形式稍有不同, 但思想是完全一样可以直接拓展的。
g
g
g 此处是
F
\mathcal{F}
F 的示性函数。 那么其对应的 拉格朗日增广函数为:
G
(
q
,
θ
,
λ
R
,
λ
I
)
=
−
q
H
U
q
−
∑
n
=
1
N
1
F
(
θ
n
)
−
μ
2
∥
q
−
θ
∥
2
2
+
Re
{
2
q
H
ν
+
(
λ
R
+
j
λ
I
)
H
(
q
−
θ
)
}
G(q,θ,λR,λI)=−qHUq−N∑n=11F(θn)−μ2‖q−θ‖22+Re{2qHν+(λR+jλI)H(q−θ)}
G(q,θ,λR,λI)=−qHUq−n=1∑N1F(θn)−2μ∥q−θ∥22+Re{2qHν+(λR+jλI)H(q−θ)}
其中
λ
R
=
[
λ
R
,
1
,
⋯
,
λ
R
,
N
]
T
\boldsymbol{\lambda}_{\mathrm{R}}=\left[\lambda_{\mathrm{R}, 1}, \cdots, \lambda_{\mathrm{R}, N}\right]^{\mathrm{T}}
λR=[λR,1,⋯,λR,N]T 和
λ
I
=
[
λ
I
,
1
,
⋯
,
λ
I
,
N
]
T
\boldsymbol{\lambda}_{\mathrm{I}}=\left[\lambda_{\mathrm{I}, 1}, \cdots, \lambda_{\mathrm{I}, N}\right]^{\mathrm{T}}
λI=[λI,1,⋯,λI,N]T 是分别对应于
Re
{
q
−
θ
}
=
0
\operatorname{Re}\{\mathrm{q}-\theta\}=0
Re{q−θ}=0 和
Im
{
q
−
θ
}
=
0
\operatorname{Im}\{\mathrm{q}-\theta\}=0
Im{q−θ}=0 两个限制的 拉格朗日系数。
−
μ
2
∥
q
−
θ
∥
2
2
-\frac{\mu}{2}\|\mathrm{q}-\theta\|_{2}^{2}
−2μ∥q−θ∥22 是惩罚项。 至此, 我们开始以
G
\mathcal{G}
G 为目标进行求解这一对偶问题如下:
min
λ
R
,
λ
I
L
(
λ
R
,
λ
I
)
=
max
θ
,
q
{
G
(
q
,
θ
,
λ
R
,
λ
I
)
}
\min _{\lambda_{\mathrm{R}}, \lambda_{\mathrm{I}}} \mathcal{L}\left(\lambda_{\mathrm{R}}, \lambda_{\mathrm{I}}\right)=\max _{\theta, q}\left\{\mathcal{G}\left(\mathbf{q}, \theta, \lambda_{\mathrm{R}}, \lambda_{\mathrm{I}}\right)\right\}
λR,λIminL(λR,λI)=θ,qmax{G(q,θ,λR,λI)}
如果
F
=
F
1
\mathcal{F}=\mathcal{F}_1
F=F1, 那么原问题和对偶问题的最优解是一致的, 即没有 duality gap. 否则, 是存在一定最优性损失的。 这个可以参考 博客 【凸优化】关于 KKT 条件 及其最优性。 接下来, 通过 ADMM 算法求解 该对偶问题, 为:
θ
t
+
1
=
arg
max
θ
G
(
q
t
,
θ
,
λ
ˉ
t
)
q
t
+
1
=
arg
max
q
G
(
q
,
θ
t
+
1
,
λ
ˉ
t
)
λ
ˉ
t
+
1
=
λ
ˉ
t
−
μ
(
q
t
+
1
−
θ
t
+
1
)
θt+1=argmaxθG(qt,θ,ˉλt)qt+1=argmaxqG(q,θt+1,ˉλt)ˉλt+1=ˉλt−μ(qt+1−θt+1)
θt+1=argθmaxG(qt,θ,λˉt)qt+1=argqmaxG(q,θt+1,λˉt)λˉt+1=λˉt−μ(qt+1−θt+1)
其中,
λ
ˉ
=
λ
R
+
j
λ
I
\bar{\lambda}=\lambda_{\mathrm{R}}+j \lambda_{\mathrm{I}}
λˉ=λR+jλI,
t
t
t 代表迭代次数。 可以看到实质上则是固定其余变量优化单一变量的 交替优化方法。
对于第二步, 这是一个关于
q
\mathbf{q}
q 的凸函数, 因此很容易用求导得到闭式解:
q
t
+
1
=
(
2
U
+
μ
I
N
)
−
1
(
2
v
+
λ
ˉ
t
+
μ
θ
t
+
1
)
\mathbf{q}^{t+1}=\left(2 \mathbf{U}+\mu \mathbf{I}_{N}\right)^{-1}\left(2 \mathbf{v}+\bar{\lambda}^{t}+\mu \theta^{t+1}\right)
qt+1=(2U+μIN)−1(2v+λˉt+μθt+1)
关键我们看第一步, 把
G
\mathcal{G}
G 中 与
θ
\theta
θ 相关的项取出, 问题可写为:
max
θ
−
μ
2
∥
q
t
−
θ
∥
2
2
+
Re
{
(
λ
R
t
+
j
λ
I
t
)
H
(
q
t
−
θ
)
}
−
∑
n
=
1
N
g
(
[
θ
]
n
)
\max_\theta -\frac{\mu}{2}\|\mathrm{q}^t-\theta\|_{2}^{2} +\operatorname{Re}\left\{\left(\lambda_{\mathrm{R}}^t+j \lambda_{\mathrm{I}}^t\right)^{\mathrm{H}}(\mathrm{q}^t-\theta)\right\} - \sum_{n=1}^Ng([\boldsymbol{\theta}]_n)
θmax−2μ∥qt−θ∥22+Re{(λRt+jλIt)H(qt−θ)}−n=1∑Ng([θ]n)
通过加入无关的常数项, 目标函数可以改写为:
−
μ
2
(
∥
q
t
−
1
μ
λ
t
−
θ
∥
2
)
−
∑
n
=
1
N
g
(
[
θ
]
n
)
-\frac{\mu}{2}(\|q^t-\frac{1}{\mu}\lambda^t-\theta\|^2) -\sum_{n=1}^Ng([\boldsymbol{\theta}]_n)
−2μ(∥qt−μ1λt−θ∥2)−n=1∑Ng([θ]n)
要想最大化上式, 结果为:
θ
t
+
1
=
P
j
F
(
q
t
−
1
μ
λ
ˉ
t
)
\theta^{t+1}=\mathrm{P} \mathrm{j}_{\mathcal{F}}\left(\mathrm{q}^{t}-\frac{1}{\mu} \bar{\lambda}^{t}\right)
θt+1=PjF(qt−μ1λˉt)
其中
P
j
\mathrm{Pj}
Pj代表投影操作。 这里解释下为什么是这个解: 首先必须满足
θ
∈
F
\theta\in\mathcal{F}
θ∈F, 否则由于示性函数的存在, 目标函数直接变为
−
∞
-\infty
−∞。 在看第一项, 代表的物理意义就是, 寻找离 向量
q
t
−
1
μ
λ
t
q^t-\frac{1}{\mu}\lambda^t
qt−μ1λt 最近的向量。 结合起来就变为: 寻找 在
F
\mathcal{F}
F中的, 离 向量
q
t
−
1
μ
λ
t
q^t-\frac{1}{\mu}\lambda^t
qt−μ1λt 最近的向量, 那这不正是投影操作的定义么! 因此:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。