赞
踩
基于分数的扩散模型提供了一种使用数据分布梯度对图像进行建模的强大方法。利用学习到的分数函数作为先验函数,这里我们介绍了一种从给定测量值的条件分布中采样数据的方法,以便该模型可以很容易地用于解决成像中的逆问题,特别是用于加速MRI。简言之,我们训练了一个连续的时间相关的分数函数和去噪分数匹配。然后,在推理阶段,我们在数值SDE求解器和数据一致性步骤之间迭代以实现重构。我们的模型只需要用于训练的图像,但能够重建复杂值数据,甚至可以扩展到并行成像。所提出的方法不受子采样模式的影响,并且具有良好的泛化能力,因此它可以用于任何未用于训练数据的身体部位的任何采样方案。此外,由于其生成性,我们的方法可以量化不确定性,这在标准回归设置中是不可能的。除了所有优点之外,我们的方法还具有非常强的性能,甚至超过了在完全监督下训练的模型。通过大量的实验,我们验证了我们方法在质量和实用性方面的优越性。
近年来,磁共振成像(MRI)的亚采样测量重建方法取得了很大进展。正则化重建方法利用手工制作的先验数据的稀疏性以及数据的一致性来得出解决方案(Donoho,2006),但先验的构造是十分重要的,并且没有一种方法能够正确地建模MRI扫描的实际复杂数据分布 p d a t a p_{data} pdata。数据驱动的深度学习方法可以直接(Wang等人,2016)或间接(Oh等人,2020;Yaman等人,2020)训练模型,但这些方法严重依赖于精心策划的k空间数据大型数据库的监督,这很难获得。
最近,基于分数的模型(Hyvärinen和Dayan,2005;Song和Ermon,2019)和去噪扩散概率模型(DDPM)(Sohl Dickstein等人,2015;Ho等人,2020)作为一种新的生成模型获得了广泛的兴趣,这种模型在没有对抗性训练的情况下实现了惊人的高样本质量(Song等人,2021b;Nichol和Dhariwal,2021;Dhariwal和Nichol,2021)。在许多著作中,Song等人(2021b)将离散分数匹配程序一般化为连续随机微分方程(SDE),事实上,该方程也将扩散模型纳入同一框架。我们指的是基于分数的SDE作为基于分数的扩散模型,强调我们提出的方法可以灵活地用于两个模型类的任何实现:基于分数的生成模型和扩散模型。
基于分数的扩散模型根据前向SDE通过注入高斯噪声来扰动数据分布,从而获得可处理的分布(例如各向同性高斯分布)。为了从数据分布中采样,可以训练神经网络来估计对数数据分布的梯度(即, ∇ x l o g p ( x ) ∇_ x log p(x) ∇xlogp(x)),并使用它数值求解反向SDE。使用这些基于分数的扩散模型从 p ( x ) p(x) p(x)无条件生成样本已发现其在图像(Song等人,2021b;Nichol和Dhariwal,2021;Dhariwal和Nichol,2021)、音频(Kong等人,2021)和偶数图(Niu等人,2020)合成中的应用。在众所周知的计算机视觉问题背景下,也研究了 p ( x ∣ y ) p(x | y) p(x∣y)的条件生成:绘画(Song和Ermon,2019;Song等人,2021b)、超分辨率(Choi等人,2021;Saharia等人,2021)和图像编辑(Meng等人,2021)。
在这项工作中,我们提出了一个普遍适用于解决成像中的逆问题的框架,特别是针对MRI重建任务。值得注意的是,我们的方法只需要使用幅度图像训练单个分数函数。使用使用去噪分数匹配损失的训练分数模型,我们从方差爆炸(VE)-SDE(Song等人,2021b)构建了反向SDE的求解器,这使得我们能够从分布 p ( x ∣ y ) p(x|y) p(x∣y)测量y为条件。这是通过在无条件更新步骤之后的每次迭代中强制执行数据一致性步骤来完成的。
尽管没有训练分数函数来解决图像重建任务,但我们的方法实现了最先进的性能,甚至优于专门针对复杂图像的图像重建任务以监督方式训练的模型。此外,我们的模型与加速过程中使用的子采样模式无关,而监督模型在每次设计新的采样方案时都需要重新训练。此外,所提出的方法可以扩展到使用以前从未见过复值数据的单个网络重建复值MR图像采集。更重要的是,我们的方法可以很容易地应用于具有相同得分函数的实际多线圈设置,其中通过得分函数的更新可以并行应用于每个线圈图像。值得一提的是,训练后的分数函数的泛化能力要大得多。事实上,当我们尝试重建严重超出训练数据分布的数据(例如,不同的对比度,甚至不同的解剖结构)时,我们仍然能够实现高保真度重建。
最后,所提出的方法本质上是随机的,因此,我们可以从同一测量向量y中对多个重建结果进行采样。这特别有用,因为我们能够量化不确定性,而无需任何特定处理(例如,蒙特卡罗 dropout (Gal和Ghahramani,2016),直接估计神经网络的方差(Kendall和Gal,2017))。我们观察到,在低加速因子下,后验样本之间的偏差不大,这意味着网络的可信度很高。随着加速因子被推到更高的值,方差逐渐增加,这可能有助于从业者的决策。
我们可以用 x ( t ) x(t) x(t)构造一个连续扩散过程 x ( t ) t = 0 t ∈ R n {x(t)}^t_{t=0}∈R^n x(t)t=0t∈Rn,其中 t ∈ [ 0 , T ] t∈[0,T] t∈[0,T]是级数的时间索引,n表示图像维度。我们选择 x ( 0 ) ∼ p d a t a x(0)∼ p_{data} x(0)∼pdata和 x ( T ) ∼ p T x(T)∼ p_T x(T)∼pT,其中 p d a t a p_{data} pdata, p T p_T pT分别指感兴趣的数据分布和可用于采样的先验分布(例如球形高斯分布)。然后,可以将随机过程构造为以下SDE的解:
可以通过为f和g选择不同的函数来构造不同的SDE:
其中0<β(t)<1是噪声尺度的单调递增函数,可以实现方差保持(VP)-SDE(Ho等人,2020)。在这种情况下,信号的幅值衰减为0,方差保持为固定常数 t → ∞ t→ ∞ t→∞ . 事实上,VP-SDE可以被视为DDPM的连续版本(Song等人,2021b;Kingma等人,2021)。因此,虽然DDPM是在一个单独的变分框架中开发的,但它也可以被视为SDE的一个真实化。
另一方面,方差爆炸(VE)SDE选择
其中 σ ( t ) > 0 σ(t)>0 σ(t)>0再次是单调递增函数,通常选择为几何级数(Song和Ermon,2019;Song等人,2021b)。与VP-SDE不同,VE-SDE以非常大的方差扩散信号,随着时间的推移$t→ ∞ $, 因此得名。
经验上,我们发现使用VE-SDE通常会导致更高的样本质量,因此我们将重点放在以后在VE-SDE的基础上开发我们的方法。然而,我们注意到,在我们的框架下,VP-SDE(包括在变分框架下开发的DDPM家族)的使用也是直接的。
有趣的是,(1)的逆过程可以用另一个随机过程构建(Song等人,2021b):
其中dt是无穷小的负时间步长,而 w ~ \widetilde{w} w 又是标准n−维度布朗运动向后运行。最后一个等式是插入等式(3)至等式(4)。
为了解(4),我们必须知道所有t的分数函数。我们可以用时间条件神经网络 s θ ( x ( t ) , t ) ≃ ∇ x l o g p t ( x ( t ) ) s_θ(x(t),t)≃∇_xlogp_t(x(t)) sθ(x(t),t)≃∇xlogpt(x(t)),并将该项重新放置在(4)中。由于我们不知道真实分数,我们可以使用去噪分数匹配(Vincent,201 1),在这里我们替换未知 ∇ x l o g p t ( x ∇_xlogp_t(x ∇xlogpt(x与 ∇ x l o g p 0 t ( x ( t ) ∣ x ( 0 ) ) ∇_x logp_{0 t}(x(t)|x(0)) ∇xlogp0t(x(t)∣x(0)),其中 p 0 t p_{0t} p0t是高斯摄动核,它摄动概率密度 p 0 ( x ) p_0(x) p0(x)到 p t ( x ) p_t(x) pt(x)。在某些正则性条件下,用去噪分数匹配训练的 s θ s_θ sθ将满足 s θ ∗ ( x ( t ) , t ) = ∇ x l o g p t ( x ) s_{θ∗} (x(t),t)=∇_xlogp_t(x) sθ∗(x(t),t)=∇xlogpt(x)几乎可以肯定(Song等人,2020)。
其中,λ(t)是一个适当的加权函数,例如Song等人(2021a)的似然加权,它根据时间t进行不同的强调。在高斯摄动的情况下,摄动核的梯度可以用公式表示: ∇ x l o g p 0 t ( x ( t ) ∣ x ( 0 ) ) = ( x ( t ) − x ( 0 ) ) / σ ∇_x logp_{0 t}(x(t)|x(0))=(x(t)−x(0))/σ ∇xlogp0t(x(t)∣x(0))=(x(t)−x(0))/σ。直觉上,我们也可以理解(5)为训练神经网络去噪 x ( t ) x(t) x(t),它是通过将噪声加到 x ( 0 ) x(0) x(0)上而构建的。
在Song和Ermon(2019)中,通过一个示例性的玩具示例显示,当你将高斯噪声添加到随机变量中时,你基本上得到了原始密度的模糊版本,这实际上来自于两个随机变量的相加对应于两个密度的卷积的性质(Loeve,2017)。因此,当训练分数函数以跨多个噪声尺度对给定数据进行降噪时,可以使用纯噪声开始扩散过程,并根据数据密度的梯度信息逐渐降低噪声。所以,我们可以得出数据分布的高密度模式。
一旦用(5)训练了网络,我们就可以插入近似 s θ ( x ( t ) , t ) ≃ ∇ x l o g p t ( x ( t ) ) s_θ(x(t),t)≃∇_xlogp_t(x(t)) sθ(x(t),t)≃∇xlogpt(x(t))来求解等式(4)中的反向SDE:
然后,我们可以用数值方法求解SDE,例如,使用Euler-Maruyama离散化(Song等人,2021b)。这包括将范围 [ 0 , 1 ] [0,1] [0,1]中的t均匀地分解为N个区间,使得 0 = t 0 < t 1 < ⋅ ⋅ < t N = 1 0=t_0<t_1<··<t_N=1 0=t0<t1<⋅⋅<tN=1,其中 Δ t = 1 / N \Delta t=1/N Δt=1/N。此外,我们可以使用校正算法(如Langevin MC(Parisi,1981))校正梯度上升的方向。迭代应用预测器和校正器步骤产生预测器-校正器(PC)采样算法(Song et al,2021b),如算法1所示。使用算法1中所示的算法,我们可以从分布 p ( x ) p(x) p(x)进行采样。在第3节中,我们将此采样方案扩展到条件采样算法,这使得我们能够从 p ( x ∣ y ) p(x|y) p(x∣y)进行采样。
在加速MRI中,我们考虑以下测量模型:
其中 y ∈ C m y∈C^m y∈Cm是测量值, x ∈ C n x∈C^n x∈Cn是潜像,参数化正向测量矩阵 a ∈ C m × n a∈C^{m×n} a∈Cm×n定义为:
其中 S : = [ S ( 1 ) ; … ; S ( c ) ] S:=[S(1);…;S(c)] S:=[S(1);…;S(c)]是c个不同线圈的灵敏度图, F \mathcal{F} F 表示傅立叶变换, P Ω P_{\Omega} PΩ是一个具有0和1的对角矩阵,表示具有给定采样模式的子采样算子 Ω \Omega Ω。灵敏度图S是标准化的
在单线圈采集的情况下,S简化为单位矩阵,使得 A ( s c ) = P Ω F A_{(sc)}=P_{\Omega}\mathcal{F} A(sc)=PΩF
找到等式(7)的解的经典方法是解决以下约束优化问题:
其中 Ψ ( . ) \Psi(.) Ψ(.)是从压缩感知(CS)理论(Donoho,2006)中导出的稀疏性促进正则化器,例如L1小波(Lustig等人,2007)和总变化(TV)(Block等人,2007年)。求解等式(10)通常涉及近端算法,例如变量分裂(Boyd等人,201 1)或凸集投影(POCS)(Samsonov等人,2004),这些算法消除了先验项和前向一致性项的优化。然后,可以交替解决这两个子问题,以达到最佳效果。
从贝叶斯的角度来看,我们马上就看到了 Ψ ( x ) \Psi(x) Ψ(x)等式(10)中的(x)是数据的先验模型,即 p ( x ) p(x) p(x)。因此,我们可以想象,通过更准确地估计复杂的先验数据分布,可以获得更高质量的样本。
也就是说,与经典方法相比,提出的方法的一个重要区别是,我们利用随机样本,而不是建模先验分布 p ( x ) p(x) p(x)。具体而言,来自先前分布的样本可以可从等式(4)中的反向SDE获得,如算法1所示:
然后,(10)中约束的数据一致性映射可以通过:
对于 λ ∈ [ 0 , 1 ] λ∈ [0,1] λ∈[0,1],其中 A ∗ A^∗ A∗ 表示A的厄米伴随。
与我们的伴随工作(Chung等人,2021)类似,我们对算子A施加约束,使得 ( I − λ A ∗ A ) (I− λA^∗A) (I−λA∗A)是非扩张映射(Bauschke等人,201 1):
例如,(Tang等人,201 1;Fan等人,2017)中的凸集投影(POC)或具有受控步长的标准梯度下降的一次迭代(Jalal等人,2021;Ramzi等人,2020)对应于非扩展数据一致性映射。
在下文中,(9)中的标准化步骤对于确保(I)− λA∗A)确实是不可扩展的:
其中 ( a ) ( b ) (a)(b) (a)(b)是二次采样算子 P Ω P_{\Omega} PΩ, ( c ) (c) (c)来自傅立叶变换的正交性, ( d ) (d) (d)来自(9)。因此,我们有
这就是证明。
公式的应用。(11)和(12)对应于预测器步骤。当使用算法1中的附加校正步骤时,也可以对离散校正步骤进行相同的处理
其中 ϵ i \epsilon{i} ϵi是第i次迭代的步长。迭代应用预测器和校正器步骤,如PC算法中的步骤,产生了推理算法,该算法在算法2中进行了正式描述
其中λ=1。
不幸的是,只有当我们先验地知道信号仅包含实值时,才能使用该算法,并且必须小心,因为在MRI重建的大多数实际情况下,我们想要重建的信号是复杂的。由于基于分数的SDE的原始理论(Song等人,2021b)没有考虑复杂信号,因此在使用分数函数重建数据时,这引入了一个警告。
一种可行的方法是训练分数函数,使其处理复杂信号,这是在(Ramzi等人,2020年)中提出的。在实现方面,这对应于将信号的实部和虚部视为单独的通道,并应用去噪分数匹配目标来处理2×H×W大小的图像,其中H和W分别是图像的高度和宽度。然而,我们根据经验发现,这种处理降低了网络训练的稳定性,也损害了使用算法2进行重建的性能。我们进一步注意到,这种处理方式限制了实用性,因为模型现在需要原始k空间数据进行训练。
为了克服这些限制,我们对算法2提出了一个简单的修正,该算法提供了一种仅使用幅度图像训练的分数函数sθ,并将其用于重建复杂图像的方法。该方法在算法3中给出
其中我们将图像分成实部和虚部,并分别对每个部分应用预测-校正步骤。因此,我们可以使用与用mag-nitude图像训练的相同的得分函数,以无缝的方式处理复杂的图像数据。这种简单的修复方法效果出人意料地好,我们在第5.2节中表明,使用算法3重建复值线圈数据甚至优于经过显式监督训练的标准前馈神经网络。由于我们只能使用DICOM数据来训练神经网络,因此能够利用仅用幅度数据训练的得分函数来重构复值数据是一个很大的优势。这是有利的,因为过多的MR扫描以DICOM的形式存在(Zbontar等人,2018),而原始k空间数据通常由于其过大的内存大小而被丢弃。
虽然所提议的基于分数的复杂值数据重建框架非常有用,但大多数现代MRI扫描仪(Zbontar等人,2018年)都有多个接收器线圈,它们以不同的灵敏度捕获信号。自PI(Deshmane等人,2012年)出生以来,文献中提出了许多重建真实潜在信号的技术,其中最突出的两种是SENSE(Pruessmann等人,1999年)和GRAPPA(Griswold等人,2002年)。前一种方法需要估计或校准线圈灵敏度图,这些图与(7)中规定的正向模型相结合。相反,后一种方法通过简单地取每个重建线圈图像的平方根和(SSOS),从而减少了对灵敏度图的需要(Roemer等人,1990)。这种方法是临床实践中使用最广泛的方法之一,因为它具有一些优点,包括易于实现。在这里,我们展示了基于分数的方法可以无缝地集成到SSOS类型的方法中。
具体而言,如算法4所述:
我们的目标是逐个线圈重建数据线圈。对于PI,为了简洁起见,我们将数字校正步长设置为1,即M=1。更具体地说,与GRAPPA不同,我们只需将算法3单独应用于每个线圈图像,而不是估计GRAPPA核,如图2(a)所示。值得注意的是,尽管我们的得分函数估计 s θ ( x ( t ) , t ) ≃ ∇ x l o g p t ( x ( t ) ) s_θ(x(t),t)≃∇_xlogp_t(x(t)) sθ(x(t),t)≃∇xlogpt(x(t))未使用单独的线圈图像进行训练,因为独立线圈图像的分布与 p ( x ) p(x) p(x)相差不大,因此简单地将算法3应用于每个线圈图像可获得非常精确的重建。
算法4的一个缺点是线圈重建之间不存在串扰。这可能是次优的,因为重建过程没有考虑到所有线圈图像都来自同一图像。相反,为了更好地利用不同线圈图像之间的相关性,我们通过结合SENSE类型约束,在算法5中额外实现了混合类型方法。
具体来说,对于每m个单独线圈更新步骤,我们使用以下更新强制线圈之间的依赖关系:
其中λ∈ [0,1]决定了数据一致性的强加程度, A ( m c ) A_{(mc)} A(mc)是(8)中定义的标准多线圈正向测量矩阵。一旦完成,我们就可以通过SSOS操作得出最终结果。如图2(b)所示。
通过在迭代过程中应用更新步骤(16),并线性减小λ值,我们可以观察到性能的提高和更清晰的重建。
在不同的采样模式中,我们看到算法5通常在1D采样模式下表现更好,而算法4对2D图案执行得更好。因此,我们报告了使用算法5进行1D欠采样的重建,以及使用算法4进行2D欠采样的重构。SSOS类型和混合类型方法的一个警告是推理速度慢。与单线圈重建相比,天真地实现这些算法将导致c倍的计算时间。但是,这可以通过对每个线圈数据执行并行计算而大大减轻,因为不需要在线程之间共享计算。给定足够的GPU资源,我们预计PI重建所需的计算时间将减少到单线圈重建所需时间。
主要实验(包括分数函数的训练)是使用fastMRI膝关节数据集(Zbontar等人,2018)进行的,该数据集是公开的。我们使用320×320大小的目标图像大小训练网络,给出了关键reconstruction_esc ,但我们在性能上没有发现显著差异。
在973卷训练数据中,我们删除了每个卷的第一个和最后五个切片,以避免使用仅含噪声的数据训练模型。这将产生大约25k条训练数据。为了进行测试,我们从验证集中随机抽取了30个卷,并从每个卷中删除了第一个和最后5个切片。对于PI实验,由于计算的限制,我们使用了10个体积。
我们按照(Song等人,2021b)中建议的类似程序训练VE-SDE。具体来说,我们使用等式(5)中给出的目标训练网络,设置 λ ( t ) = σ λ(t)=σ λ(t)=σ。插入加权函数,我们可以用以下成本训练模型:
设置为 ϵ \epsilon ϵ=10−5来规避数字问题。
步长 ϵ i \epsilon_{i} ϵi在Langevin MC校正器步骤中使用,我们遵循(Song等人,2021b)中的建议,并设置
其中r=0.16被设置为恒定值。对于噪声方差计划,我们确定 σ m i n = 0.01 , σ m a x = 378 σ_{min}=0.01,σ_{max}=378 σmin=0.01,σmax=378,类似于(Song和Ermon,2020)技术中的修正,然后采用以下形式的几何级数:
我们取批量大小为1,并使用Adam优化器优化网络(β1=0.9,β2=0.999)。我们使用线性热身计划优化的前50 0步的参数,在第50 0步达到2e-4。我们应用最大值为1.0的梯度剪裁(Arjovsky等人,2017)。指数移动平均率0.999应用于参数。
优化进行了100epoches,用一个RTX 3090 GPU训练分数函数大约需要3周。
所有代码都在PyTorch中实现(Paszke等人,2019)。
对于所有算法,我们使用N=20 0 0,M=1迭代作为参考,除非另有规定。对于混合型算法5,我们从λ=1开始。在第一次迭代中为0,并且lin-早期将值减小到λ=0。在最后一次迭代时为2。预测器和校正器步骤都需要单次向前通过sθ,使用普通GPU大约需要150ms。
综上所述,这导致实值图像的重建时间约为10分钟,复值图像的重构时间约为20分钟。我们在第6.1节中讨论了加快推理的方法,以及未来研究的一些潜在方向。
我们以(Song等人,2021b)中建议的时间相关分数函数模型ncsnpp 2的实现为基础。模型架构源自U-Net(Ronneberger等人,2015年),组成U-Net的子块取自BigGAN的剩余块(Brock等人,2019年)。剩余块中的跳过连接按1/缩放√ 2(Karras等人,2017;2019;2020)。对于池和非池,我们采用了抗混叠池(Zhang,2019)。由此产生的U-Net具有4个不同级别的规模,每个级别有4个剩余网络。使用傅立叶特征(Tancik等人,2020)对具有时间索引t的网络进行调节,其中条件特征被添加到编码器特征中。有关详细信息,请参见附录。
为了验证优于当前标准的优势,我们使用(Zbontar等人,2018年)中使用的基线方法进行比较研究。我们选择总变异(TV)重构(Block et al,2007)作为代表性的CS重构方法,其中我们使用sigpy.mri.app中的实现。TotalVariationRecon 3.我们对超参数lambda执行网格搜索,并只报告其中的最佳结果。
对于具有代表性的深度学习方法,我们使用U-Net进行基于监督学习的重构(Zbontar等人,2018)。
虽然我们可以使用开源的4预训练模型,但我们重新实现了该模型以获得更好的性能。
我们还与最先进的监督方法进行了比较。对于实值模拟研究和单线圈实验,我们将其与DuDoRNet(Zhou和Zhou,2020)进行比较。
我们使用官方实现5,有4个重复块和默认参数。我们使用相同的质子密度(PD)/质子密度脂肪抑制(PDFS)图像作为先验信息。对于最先进的并行成像方法,我们使用端到端变分网络(E2E varnet)(Sriram等人,2020),该网络同时估计灵敏度图。我们使用官方fastMRI github和fastMRI膝盖数据集建议的默认参数。对于所有深度学习比较研究,我们使用高斯1D随机采样掩码训练网络。
为了量化重建与目标的接近程度,我们使用标准度量-峰值信噪比(PSNR)和结构相似性指数(SSIM)。我们使用MedCalc软件(Schoonjans等人,1995年),使用重复测量方差分析(RM-ANOVA)进一步测试差异的统计学意义。虽然这是社区中使用最广泛的两个指标,但众所周知,这些指标几乎与放射科医生对图像质量的评分不符(Mason等人,2019年)。
为了充分发挥所提方法的优势,我们将重点放在这样一个事实上,即良好的重建是可以用于准确诊断的重建。如果重建质量与地面真实情况紧密匹配,则下游任务的性能不应退化-在我们的案例诊断中。为了与地面真实情况、每次重建的诊断能力进行比较,我们利用了最新的fastMRI+(Zhao等人,2021)数据集。对于fastMRI膝关节数据,fastMRI+注释提供了病理区域周围的边界框。我们使用地面实况(完全采样)图像训练标准对象检测模型,并使用该网络比较模型在病理检测和使用不同方法重建方面的表现。通过这样做,我们可以测量每种重建方法所发生的分布偏移量。性能差异越小,我们得出的结论是,完全采样数据的分布偏移越小。有关详细的实验程序,请参阅下一节,即第4.6节。从实验中,我们量化了物体检测文献中的三个标准度量-平均精度(mAP)、精度和召回率。
对于对象检测模型,我们使用最先进的YOLO v5 6。我们使用YOLOv5m的默认配置,这是一个中型模型,当您没有足够的数据量时,通常建议将其作为基线模型。当我们试图适应更大版本的模型时,即YOLOv5l、YOLO5x等,我们发现会出现过度拟合,性能会下降一小部分。
对于YOLOv5模型的训练数据,我们在fastMRI+中使用了所有带注释的训练数据。我们不会在训练集中包含任何没有注释的图像。为了进行测试,我们从验证集中随机选择了15个案例。
模型权重从开源预训练模型中进行了微调,并使用16个批次大小进行了300个时期的训练。训练在2×2080Ti GPU上花费了大约一天的时间。
可以观察到的一点是,所提出的方法利用分数函数作为算法的主要工作负载,对分布偏移具有鲁棒性。否则,算法3、4、5一开始就不会起作用,因为训练数据分布和推理数据分布是不同的。随后,人们可能会想,我们能在多大程度上推动这一差异,同时仍能取得令人满意的结果。为了进一步研究该方法的泛化能力,我们使用从不同解剖和对比中收集的数据进行了广泛的实验。为了实现最大的多样性,我们收集了来自各种开放源代码的数据数据库,包括mridata Flynn等人,人类连接体项目(HCP)MRI数据集(http://db.humanconnectome.org,http://github.com/hkaggarwal/modl,和MASSIVE 7(http://massive-data.org/index.html)。对于实验,所有数据都是从完全采样的k空间中进行回顾性下采样的。
使用基于分数的扩散模型进行图像重建的一个明显限制是推理所需的时间。像如第4.2节所述,使用N=20 0 0离散化步骤需要大约10分钟的推理时间。一种快速推理的新方法是减少离散化步骤的数量,我们在图10中提供了图像质量与步骤之间的权衡。在这里,我们观察到,对离散化步骤进行新的交织效果很好,图像质量的折衷最小。这尤其是在低加速因子(例如,×4)的情况下,在这种情况下,我们只需50次迭代就能实现高精度重建。随着加速因子变得越来越强,我们的方法通常需要更多的迭代来获得最大的性能。然而,从图中我们可以看到,性能上限约为N=500。根据手头的加速程度,可以随时将其调整为一个超参数。
我们还可以采用最先进的扩散模型加速策略来解决反问题,称为“更接近-扩散更快”(CCDF),这是我们公司最近提出的(Chung等人,2021)。具体而言,CCDF表示无需使用完全反向扩散程序。相反,可以从更好的初始化开始应用前向扩散图像的反向扩散,以实现一个或更好的重建性能。由此产生的短部分时间范围显著加快了重建时间。该策略得到了使用随机收缩理论的严格证明。读者可参考Chung等人(2021)。
更具体地说,指定一个非常短的时间步长t0<t(在离散化设置中,这对应于 N ‘ : = t 0 N N^‘:=t_0N N‘:=t0N)。
然后,在一个步骤中,用预刻划的正向SDE对初始重建x0进行正向扩散。对于VE-SDE,这对应于
然后可以按照相反的SDE进行 t ∈ [ 0 , t 0 ] t∈ [0,t_0] t∈[0,t0]如算法2,3,4,5。为了简单起见,这里我们给出了算法2采用的CCDF,如算法6所示。
对于 x 0 x_0 x0的初始化,我们重新排序到U-Net。通过这种预先训练的饲料的简单组合前向神经网络,我们观察到可以使用40次迭代(对应于0.02×NFE ),具有类似或更好的性能,如表3所示
基于分数的扩散模型现在是图像合成中最流行的方法之一,与最先进的GANs的图像保真度相匹配(Dhariwal和Nichol,2021),并在各种数据集上实现最先进的对数似然(Kingma等人,2021;Kim等人,2021)。使用这些模型生成条件图像的兴趣也在增加。
Song和Ermon(2019)首次提出使用经过离散去噪分数匹配训练的分数模型进行图像修复。这在(Song等人,2021b)中得到进一步发展,用于使用连续时间分数模型进行图像着色和类条件图像合成。同一组发表了一篇使用VE-SDEs的图像编辑工作(Meng等人,2021),该工作使用了与中使用的图像修复类似的算法(Song和Ermon,2019;Song等人,2021b)。ILVR(Choi等人,2021)采用扩散模型(Ho等人,2020)进行图像超分辨率和图像翻译。所有这些工作都需要训练与实际目标任务无关的分数模型,因此是灵活的。尽管如此,所有先前的工作都集中于条件也停留在图像域中的应用,这使得问题更容易解决。
我们的方法通过显示条件可以应用于不一定在同一图像域中的测量域来增加灵活性。我们知道有一项先前的工作将去噪分数匹配用于MRI重建(Ramzi等人,2020年)。(Ramzi等人,2020)的研究人员使用摊余残差去噪自动编码器(AR-DAE)分数匹配损失(Lim等人,2020)来训练分数函数,然后使用退火哈密顿MC(Neal等人,201 1)从测量中进行重构。然而,(Ramzi等人,2020年)报告称,他们的方法在很大程度上落后于监督学习方法,尤其是在考虑单个样本时。此外,(Ramzi等人,2020年)中的培训方法以单独的渠道综合体为目标-有价值的数据,这限制了它们的应用。另一方面,我们的方法优于在监督下训练的神经网络,并且只需要训练幅度图像。值得注意的是,所提出的方法适用于PI。
本文提交后,我们发现了两个与拟议工作密切相关的独立作品。Jalal等人(2021)提议使用基于分数的生成模型来训练类似于我们的分数函数,并通过假设高斯测量噪声,通过退火Langevin dynamics(ALD)(Song和Ermon,2019)采样,以获得关于数据可靠性项的梯度信息。正如我们的工作所示,Jalal等人(2021)说明了使用基于分数的生成模型在不同子采样模式和不同解剖结构下进行重建的稳健性。我们和Jalal等人(2021)之间最大的区别在于,我们的方法只需要DICOM图像来训练分数函数。这与Jalal等人(2021)形成鲜明对比,因为他们需要完全采样的k空间数据来训练分数函数。
此外,我们的工作基于分数匹配的连续版本(Song等人,2021b),而Jalal等人的工作(2021)基于离散版本(Song和Ermon,2020)。还值得一提的是,我们使用了先进的采样器(PC)和更高效的网络架构,这被证明可以通过一个大的模型来提高生成建模的性能(Song等人,2021b)。最后,Jalal等人(2021)介绍了整理数据保真度梯度项,这需要指定每个噪声标度的方差计划。我们的方法没有额外的超参数,因此更容易实现。
Song等人(2022)可能与我们的工作最相关,因为作者还建议使用VE-SDE of(Song等人,2021b),并且他们与PC采样器一起使用相同的网络架构,就像我们的工作一样。我们的工作与Song等人(2022)的关键区别在于,我们得到了能够重构复值数据以及多线圈数据的解算器。Song等人(2022年)只专注于解决实值图像的模拟重建,这限制了实用性。此外,数据保真度强制步骤与我们的工作略有不同。
基于能量的模型(EBM)是非归一化概率模型,其优点是避免了计算归一化常数(即分配函数)的需要(Song和Kingma,2021)。我们的工作依赖于去噪分数匹配来估计分数,这也属于EBM的范畴。当然,还有其他方法来训练循证医学,除分数匹配外,最广为人知的方法之一是对比发散(CD)(Carreira Perpinan和Hinton,2005)。
与我们的工作同时,提出了一种利用CD的MR加速算法(Guan等人,2021)。这项工作将他们的方法建立在持续对比发散(PCD)训练的EBM上,这是使用样本缓冲区的CD变体(Du和Mor-datch,2019)。具体而言,参数化能量函数Eθ。一旦训练了能量函数,就可以通过MCMC生成无条件样本,或者在MCMC更新步骤之间应用数据一致性投影,从条件分布中进行采样。
这个过程实际上与我们的方法相似,经过训练的函数形成了 ∇ x l o g p θ ( x ) = − ∇ θ ( x ) ∇_xlogp_θ(x)=−∇ θ(x) ∇xlogpθ(x)=−∇θ(x)。然而,我们注意到拟议方法与(Guan等人,2021)的两个关键区别。首先,为了用CD训练Eθ,必须在每次迭代训练时用MCMC产生负样本,这是非常重要和昂贵的。一些启发式需要以使算法工作。相比之下,我们的分数函数的训练更加直接和稳健,分解为损失函数的显式形式,如等式(17)所示。其次,我们的方法只需要幅值(DICOM)图像进行训练,而(Guan等人,2021)需要原始数据。
在最近扩散模型激增之前,已有几种方法使用生成模型,特别是一般对抗网络(GAN)(Goodfello等人,2014)作为求解反问题的先验(Marinescu等人,2021;Asim等人,2020)。与针对特定问题训练的监督模型相比,这些方法提供了改进的灵活性。相反,人们可以利用训练有素的发电机Gæ,它是在没有前沿物理知识的情况下训练的。本质上,为了使用GAN先验解决逆问题,通常会针对以下方面进行优化:
其中A和y如等式(7)所定义,z表示潜在(噪声)矢量。这对应于找到使数据保真度最小化的正确潜在向量z。
这对应于调整模型参数,使得生成器适应问题的正向物理。一旦优化通孔(20)或(21)完成,一次通过发生器 G ψ G_{\psi} Gψ的正向传输就足以进行重建。不幸的是,这些方法存在一些问题。
首先,问题(20)和(21)都很难解决,需要使用一些启发式方法,例如使用复杂的损失函数(Marinescu等人,2021;Asim等人,2020)。考虑到GAN本身也是众所周知的难以训练的,依赖GAN先验的方法相对难以复制。第二,最后的重建步骤涉及一次前向通过 G ψ G_{\psi} Gψ。对于高度病态问题,从这一次通过中生成高质量样本可能特别困难,这可能是难以实现高质量和数据保真度重建的原因。
提出的方法建议使用扩散模型代替GAN,解决了这两个问题。扩散模型具有相对明确的损失,因此更容易训练。此外,采样过程可以用最基本的反问题求解方法轻松完成。此外,使用扩散模型,可以实现细粒度控制,因为我们迭代地优化重构。
所提出的方法可以很容易地应用于计算成像中的其他问题,具有良好的训练得分函数和对推理过程的正确修改。单分数函数已经显示出广泛的适用性:SR(Choi等人,2021;Saharia等人,2021)、图像重建等。这可能会改变目前生物医学成像中的深度学习模式。例如,如果有足够的能力,可以为成像模态训练单个得分函数,并将其用作通用问题求解器。
为完整起见,这里我们列出了当前工作的两个限制。首先,当我们尝试用1D欠采样模式重建OOD数据时,我们有时会在局部边缘观察到轻微的锯齿状伪影。如图11(1.OOD侦察)所示,伪影不明显。然而,当将所提议的框架扩展到OOD数据时,应该小心,因为健壮性会受到损害。我们注意到,如图9所示,在2D采样模式中没有观察到这种伪影。
第二,当进行极端条件重建时,如图11(2.极端侦察)所示,我们偶尔会获得不令人满意的结果(例如,标有红色虚线的样本)。此外,我们观察到,由于高度不适性,后验样本中的详细结构具有高度差异。因此,当将加速因子推至非常高的值时,应小心,例如,通过对多次重构进行采样并考虑第5.5节中讨论的不确定性。
最后,我们提出了一种新的基于分数的加速MRI重建方法。我们通过使用幅度数据的连续时间去噪分数匹配来训练对数数据分布的梯度。使用学习的分数作为先验,可以通过在每个步骤中简单地应用数据一致性投影,从给定测量的条件分布中进行采样。无论是单线圈还是多线圈病例,我们的方法都能产生高精度的重建。与现有技术相比,我们展示了我们的方法在质量和实用性方面的优势。
我们相信,我们的方法为成像中的逆问题开辟了新一代方法。将我们的方法直接应用于其他场地,以测试其通用性是未来研究的一个有趣方向。除此之外,还有留下未回答的问题,例如,缩小我们的方法和前馈神经网络方法之间的重建速度差距。我们希望在不久的将来,将积极讨论许多有趣的问题和答案。
不写了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。