赞
踩
目的:不改变预训练合成模型,获得不错的恢复结果
现有的几种方法已经通过cross attention(交叉注意力)成功地控制了扩散模型的语义结构,但由于归纳偏差不足,这种策略很难提供详细和高频的指导
本文采用额外的encoder(编码器)从LR图像中提取多尺度特征
{
F
n
}
n
=
1
N
\{F^n\}_{n=1}^N
{Fn}n=1N,使用它们调制stable diffusion中残差块的中间特征图
{
F
d
i
f
n
}
n
=
1
N
\{F_{dif}^n\}_{n=1}^N
{Fdifn}n=1N,通过spatial feature
transformations (SFT):
F
^
d
i
f
n
=
(
1
+
α
n
)
⨀
F
d
i
f
n
+
β
n
;
α
n
,
β
n
=
M
θ
n
(
F
n
)
{\hat{\mathbf{F}}_{\rm dif}^{n}} = (1+{\alpha}^{n})\bigodot\mathbf{F}_{\rm dif}^{n}+{\beta}^{n};{\alpha}^{n}, {\beta}^{n} = \mathcal{M}_{\theta}^{n}(\mathbf{F}^{n})
F^difn=(1+αn)⨀Fdifn+βn;αn,βn=Mθn(Fn)
其中
α
n
{\alpha}^{n}
αn和
β
n
{\beta}^{n}
βn表示SFT中的仿射参数,
M
θ
n
\mathcal{M}_{\theta}^{n}
Mθn表示由几个卷积层组成的小型网络,这里,n表示稳定扩散中UNet体系结构的空间尺度
在微调过程中,我们冻结stable diffusion的权重
Time-aware encoder结合时间信息(时间信息是什么?)可以自适应地调整从LR特征导出的条件强度(为什么?)大大提高了生成质量和对groundtruth的保真度。
原因:扩散模型偶尔会出现颜色偏移
解决方式:对生成图像执行颜色归一化,将输入的均值和方差与LR输入的均值和方差对齐。
弥补随机性造成保真度损失,通过调整标量值平衡质量和保真度
引入了一个可调系数w∈[0,1]来控制调制的程度:
F
m
=
F
d
+
C
(
F
e
,
F
d
;
θ
)
×
w
,
(
3
)
\boldsymbol{F}_{m}=\boldsymbol{F}_{d}+\boldsymbol{\mathcal{C}}(\boldsymbol{F}_{e},\boldsymbol{F}_{d};\boldsymbol{\theta})\times w,\quad(3)
Fm=Fd+C(Fe,Fd;θ)×w,(3)
C
(
⋅
;
θ
)
\mathcal{C}(\cdot;\boldsymbol{\theta})
C(⋅;θ)表示具有可训练参数
θ
\boldsymbol{\theta}
θ的卷积层,
F
e
\boldsymbol{F}_{e}
Fe和
F
d
\boldsymbol{F}_{d}
Fd分别指VQGAN的encoder和decoder特征
w
w
w小,高真实感,
w
w
w大,高保真度,
w
=
0.5
w=0.5
w=0.5,实现质量与保真度之间的平衡
克服预先训练的扩散模型的固定大小约束,从而能够适应任何大小的分辨率
一般方法:将较大的图像分割成几个重叠的较小patch,并分别处理每个patch。不适用于diffusion,在扩散迭代过程中,patch之间的差异会被放大。
1、将LR编码为latent feature map(潜在特征图)
2、细分为多个重叠的patch,每个patch的分辨率为64×64
3、每个补丁都通过StableSR单独处理
4、使用中心高斯核为每个补丁生成大小为64×64的权重图
5、根据重叠像素各自的高斯权重图对重叠像素进行加权
如何使用HR图像?
不需要使用prompt
VQGAN损失:
L
V
Q
(
E
,
G
,
Z
)
=
∥
x
−
x
^
∥
2
+
∥
s
g
[
E
(
x
)
]
−
z
q
∥
2
2
+
β
∥
sg
[
z
q
]
−
E
(
x
)
∥
2
2
.
(
4
)
L
G
A
N
(
{
E
,
G
,
Z
}
,
D
)
=
[
log
D
(
x
)
+
log
(
1
−
D
(
x
^
)
)
]
(
5
)
\mathcal{L}_{\mathrm{GAN}}(\{E,G,Z\},D)=[\log D(x)+\log(1-D(\hat{x}))]~~(5)
LGAN({E,G,Z},D)=[logD(x)+log(1−D(x^))] (5)
Q
∗
⋅
=
arg
min
E
,
G
,
Z
max
D
E
x
∼
p
(
x
)
[
L
V
Q
(
E
,
G
,
Z
)
+
λ
L
G
A
N
(
{
E
,
G
,
Z
}
,
D
)
]
,
(
6
)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。