当前位置:   article > 正文

stableSR学习笔记

stablesr


motivation:SR任务需要图像保真度,而diffusion model生成任务具有随机性,需要两者之间平衡

time-aware encoder(时间感知编码器)

目的:不改变预训练合成模型,获得不错的恢复结果

feature Modulation(特征调制)

现有的几种方法已经通过cross attention(交叉注意力)成功地控制了扩散模型的语义结构,但由于归纳偏差不足,这种策略很难提供详细和高频的指导
本文采用额外的encoder(编码器)从LR图像中提取多尺度特征 { F n } n = 1 N \{F^n\}_{n=1}^N {Fn}n=1N,使用它们调制stable diffusion中残差块的中间特征图 { F d i f n } n = 1 N \{F_{dif}^n\}_{n=1}^N {Fdifn}n=1N,通过spatial feature
transformations (SFT):
F ^ d i f n = ( 1 + α n ) ⨀ F d i f n + β n ; α n , β n = M θ n ( F n ) {\hat{\mathbf{F}}_{\rm dif}^{n}} = (1+{\alpha}^{n})\bigodot\mathbf{F}_{\rm dif}^{n}+{\beta}^{n};{\alpha}^{n}, {\beta}^{n} = \mathcal{M}_{\theta}^{n}(\mathbf{F}^{n}) F^difn=(1+αn)Fdifn+βn;αn,βn=Mθn(Fn)
其中 α n {\alpha}^{n} αn β n {\beta}^{n} βn表示SFT中的仿射参数, M θ n \mathcal{M}_{\theta}^{n} Mθn表示由几个卷积层组成的小型网络,这里,n表示稳定扩散中UNet体系结构的空间尺度
在微调过程中,我们冻结stable diffusion的权重

Time-aware Guidance(时间感知指导)

Time-aware encoder结合时间信息(时间信息是什么?)可以自适应地调整从LR特征导出的条件强度(为什么?)大大提高了生成质量和对groundtruth的保真度。

Color Correction(颜色校正)

原因:扩散模型偶尔会出现颜色偏移
解决方式:对生成图像执行颜色归一化,将输入的均值和方差与LR输入的均值和方差对齐。

a controllable feature wrapping module (可控的特征warpping模块)

弥补随机性造成保真度损失,通过调整标量值平衡质量和保真度
引入了一个可调系数w∈[0,1]来控制调制的程度:
F m = F d + C ( F e , F d ; θ ) × w , ( 3 ) \boldsymbol{F}_{m}=\boldsymbol{F}_{d}+\boldsymbol{\mathcal{C}}(\boldsymbol{F}_{e},\boldsymbol{F}_{d};\boldsymbol{\theta})\times w,\quad(3) Fm=Fd+C(Fe,Fd;θ)×w,(3)
C ( ⋅ ; θ ) \mathcal{C}(\cdot;\boldsymbol{\theta}) C(;θ)表示具有可训练参数 θ \boldsymbol{\theta} θ的卷积层, F e \boldsymbol{F}_{e} Fe F d \boldsymbol{F}_{d} Fd分别指VQGAN的encoder和decoder特征
在这里插入图片描述 w w w小,高真实感, w w w大,高保真度, w = 0.5 w=0.5 w=0.5,实现质量与保真度之间的平衡

progressive aggregation sampling strategy(渐进聚合采样策略)

克服预先训练的扩散模型的固定大小约束,从而能够适应任何大小的分辨率
一般方法:将较大的图像分割成几个重叠的较小patch,并分别处理每个patch。不适用于diffusion,在扩散迭代过程中,patch之间的差异会被放大。
在这里插入图片描述1、将LR编码为latent feature map(潜在特征图)
2、细分为多个重叠的patch,每个patch的分辨率为64×64
3、每个补丁都通过StableSR单独处理
4、使用中心高斯核为每个补丁生成大小为64×64的权重图
5、根据重叠像素各自的高斯权重图对重叠像素进行加权

Experiment

如何使用HR图像?

不需要使用prompt



在这里插入图片描述
VQGAN损失:
L V Q ( E , G , Z ) = ∥ x − x ^ ∥ 2 + ∥ s g [ E ( x ) ] − z q ∥ 2 2 + β ∥ sg [ z q ] − E ( x ) ∥ 2 2 . ( 4 )

LVQ(E,G,Z)=xx^2+sg[E(x)]zq22+βsg[zq]E(x)22.(4)
LVQ(E,G,Z)=xx^2+sg[E(x)]zq22+βsg[zq]E(x)22.(4)
L G A N ( { E , G , Z } , D ) = [ log ⁡ D ( x ) + log ⁡ ( 1 − D ( x ^ ) ) ]    ( 5 ) \mathcal{L}_{\mathrm{GAN}}(\{E,G,Z\},D)=[\log D(x)+\log(1-D(\hat{x}))]~~(5) LGAN({E,G,Z},D)=[logD(x)+log(1D(x^))]  (5)
Q ∗ ⋅ = arg ⁡ min ⁡ E , G , Z max ⁡ D E x ∼ p ( x ) [ L V Q ( E , G , Z ) + λ L G A N ( { E , G , Z } , D ) ] , ( 6 )
Q=argminE,G,ZmaxDExp(x)[LVQ(E,G,Z)+λLGAN({E,G,Z},D)],(6)
Q=argE,G,ZminDmaxExp(x)[LVQ(E,G,Z)+λLGAN({E,G,Z},D)],(6)

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号