赞
踩
深度学习、transformer为什么能够学会东西呢。为什么通过对一个维度的信息压缩、解压缩后就能够让模型学习到东西。把流行分布定则框架引入数据科学,流行分布定则为数据科学的可行性给出了较严格的数学依据。
深度学习的主要目的和功能之一就是从数据中学习隐藏的流形结构和流形上的概率分布。
关于聚类分布定律,目前有相对完善的理论基础-最优传输理论,和较为实用的算法,例如基于凸几何的蒙日-安培方程解法,这些方法可以测量概率分布之间的距离,实现概率分布之间的变换。关于流形分布定律,目前理论发展不太完备,很多时候学习效果严重依赖于调参。但是很多实际应用问题,都可以用流形的框架来建模,从而用几何的语言来描述、梳理,用几何理论工具来加以解决,进而有望从含混模糊的经验性试错,进化到思路清晰的定量研究。
流形学习是一类借鉴了拓扑流形概念的降维方法。“流形”是指的是连在一起的区域,数学上,它指的是一组点,且每个点都有其邻域。给定任意一个点,其流形局部看起来像是欧几里得空间。换言之,它在局部空间有欧式空间的性质,能用欧式空间来进行距离计算。因此,很容易地在局部建立降维映射关系,然后再设法将局部关系推广到全局,进而进行可视化展示。
在数据流形
Σ
⊂
R
d
\Sigma \subset \mathbb{R}^d
Σ⊂Rd上稠密采样
{
x
1
,
x
2
,
.
.
.
,
x
k
}
\{x_1, x_2, ..., x_k\}
{x1,x2,...,xk},我们优化以下损失函数:
min
θ
,
ξ
L
(
θ
,
ξ
)
=
min
θ
,
ξ
∑
i
=
1
k
∥
x
i
−
ψ
ξ
∘
ϕ
θ
(
x
i
)
∥
2
\min_{\theta, \xi} L(\theta, \xi) = \min_{\theta, \xi} \sum_{i=1}^{k} \|x_i - \psi_{\xi} \circ \phi_{\theta}(x_i)\|^2
minθ,ξL(θ,ξ)=minθ,ξ∑i=1k∥xi−ψξ∘ϕθ(xi)∥2
如果损失接近 0,那么
ψ
ξ
∘
ϕ
θ
\psi_{\xi} \circ \phi_{\theta}
ψξ∘ϕθ限制在
Σ
\Sigma
Σ上为恒同映射,即对于
Σ
\Sigma
Σ上的任意点x,有
ψ
ξ
∘
ϕ
θ
(
x
)
=
x
\psi_{\xi} \circ \phi_{\theta}(x) = x
ψξ∘ϕθ(x)=x。这表示
ϕ
θ
\phi_{\theta}
ϕθ和
ψ
ξ
\psi_{\xi}
ψξ在
Σ
\Sigma
Σ上形成了一对逆映射,因此
ϕ
θ
\phi_{\theta}
ϕθ和
ψ
ξ
\psi_{\xi}
ψξ为同胚映射。
这里的
ϕ
θ
\phi_{\theta}
ϕθ和
ψ
ξ
\psi_{\xi}
ψξ分别代表两个映射,
θ
\theta
θ和
ξ
\xi
ξ是这些映射的参数。
ϕ
θ
\phi_{\theta}
ϕθ可以被视为将数据从原始空间映射到某个特征空间的函数,而
ψ
ξ
\psi_{\xi}
ψξ则是将数据从特征空间映射回原始空间的函数。这种优化框架常见于自编码器(Autoencoder)和其他深度学习模型中,旨在学习数据的有效表示,同时保持数据的重要特征不变。
从理论角度来看,流形分布定则的数学基础来自于微分几何和拓扑学。自然数据集虽然存在于高维空间中,但由于受到物理、生物等规律的约束,实际上只占据了其中的一个低维子集。这个子集在局部具有欧几里得空间的性质,因此是一个流形。而数据点在流形上的分布则反映了数据的内在结构和规律。
自然现象和数据集往往受到物理、生理、或其他自然规律的约束,这些规律限制了可能的观察结果的多样性。例如,人脸图像虽然存在于高维的像素空间中,但实际上,由于人脸的固有特性(如左右对称、五官的排列等),真实的人脸图像只占据这个高维空间中的一小部分,形成了一个低维的流形。这就是说,尽管原始数据空间的维度很高,但数据实际分布的维度(即数据流形的维度)远远低于这个值。这种维度的降低是由自然界中普遍存在的规则和约束导致的。
流形的概念来自数学,特别是拓扑学和微分几何,指的是局部具有欧几里得空间性质的空间。在数据科学和深度学习中,当我们说数据集形成一个流形时,我们的意思是数据点在局部呈现连续光滑的结构,可以通过较低维度的空间来描述。这种性质的存在,是因为物理系统通常是适定的,意味着系统的行为由其初始和边界条件连续地决定,遵循一定的物理定律。例如,温度分布的例子说明了如何由边界条件确定的解形成一个低维流形。在物理、生物等多个领域,系统的稳定性和规律性确保了即使在复杂的高维数据空间中,观测到的数据也会形成低维的、连续光滑的结构。
数据流形的概念在数据科学和深度学习中至关重要,因为它为理解和处理复杂数据提供了一个强大的框架。通过识别和利用数据的流形结构,我们可以更有效地进行数据降维、特征提取、模式识别等任务。例如,自编码器和生成对抗网络(GANs)等深度学习模型就是试图学习数据流形的结构,以生成新的数据点或发现数据的低维表示。这些方法的成功在很大程度上依赖于数据流形假设的有效性。
流形分布定则不仅是一个理论概念,它还指导着实际的数据处理和分析方法。例如,在图像识别、语音处理、自然语言处理等领域,理解数据的流形结构可以帮助设计更有效的算法和模型。此外,流形学习方法,如t-SNE和UMAP,利用了流形假设来进行高效的数据可视化和降维,使我们能够探索和理解高维数据集的内在结构。
综上所述,流形分布定则和数据流形的概念为我们提供了一种理解和处理自然数据集的强大工具,使我们能够揭示数据的内在结构和模式,从而在各种数据科学应用中取得成功。
流形是拓扑和微分几何中最为基本的概念,本质上就是很多欧氏空间粘贴在一起构成的空间。如图所示,一个流形(manifold)是一个拓扑空间,被一族开集所覆盖,对于每个开集存在一个同胚映射,被称为是坐标映射,被称为是参数域。构成一个局部坐标卡(local chart),所有局部坐标卡构成流形的图册(atlas)。在交集上,每个点可以有多个局部坐标,在局部坐标间存在变换。从流形到坐标域的变换被称为是参数化,其逆变换,从局部坐标到流形的变换被称为是流形的局部参数表示。如果流形嵌入到欧氏空间中,则欧氏空间被称为是背景空间。
在深度学习领域,一个自然的数据集被视为一个流形上的概率分布,这被称为是流形分布定则。我们将观察到的一个样本看成是原始数据空间中的一个点,大量的样本构成原始数据空间中的一个稠密点云,这片点云在某个低维流形附近,这个流形被称为是数据流形。点云在数据流形上的分布并不均匀,而是满足特定的分布规律,被表示成数据概率分布。
那么,我们自然产生如下的疑问:1. 为什么数据点云是低维的,而非占满整个原始数据空间?2. 为什么点云集合是流形,即局部是连续光滑的?
关于第一个疑问的回答是:因为自然现象满足大量的自然规律,这些规律的限制降低了数据样本点云的维数,而无法占满整个空间。比如,我们考察所有自然人脸照片构成的数据集,每个采样点是一张图片,像素的个数乘以3就是原始图像空间的维数。原始图像空间中的任意一点,都是一幅图片,但是极少的图片才是人脸图片,才会落在人脸图片流形上,因此人脸图片流形不可能占满整个原始图像空间。人脸需要满足很多自然的生理学规律,每个规律都会降低数据流形的维数,例如左右对称,就减少了近一半的像素,都有五官等确定的几何与纹理区域,每个器官的形状类似,描述的参数不多,因此进一步降低维数。最终控制人脸的基因非常有限,由此人脸图片流形的维数远远低于图片像素个数。
再如,我们观察平面区域的稳恒态温度分布,由物理热扩散定理,稳定函数满足经典的Laplace方程,由其边界值所唯一确定。如果我们在区域内部有n平方个采样点,在区域边界有n个采样点,那么每个观察到的温度函数被表示为维数为n平方的向量,即原始数据空间维数为n平方,但是实际的流形维数为边界函数的维数n。由此可见,满足物理定律的观察样本构成的数据流形维数远远低于原始数据空间维数。
关于第二个问题的回答是:绝大多数情形下,物理系统是适定的,但在临界状态下,物理系统会发生突变(由灾变理论或者临界态理论来描述)。物理定律多由偏微分方程系统来描述,微分方程的解由初始值和边界值来控制,系统是适定的,意味着由于能量守恒、质量守恒、能量传递小于光速等物理限制,初边值逐渐变化时,解也随之逐渐变化。在偏微分方程的正则性理论中,这意味着边值的索伯列夫范数控制解的索伯列夫范等等。我们将解视为数据流形上的点,边值视为其对应的局部坐标(即隐空间中的对应隐特征向量)。从数据流形到隐空间的映射被称为是编码映射,从隐空间到数据流形的映射被称为是解码映射。正则性理论保证编码映射和解码映射是连续的乃至光滑的,解的唯一性保证这些映射是拓扑同胚或者微分同胚。边值可以任意局部扰动,即隐变量存在一个开欧式圆盘的邻域。这意味着满足特定物理定则的观察样本构成了数据流形。
流形嵌入理论是数学中的一个重要领域,特别是在微分几何和拓扑学中。它研究的是如何将一个抽象定义的流形(manifold)嵌入(embed)或浸入(immerse)到一个更高维度的欧几里得空间中,同时保持流形的拓扑和微分结构。简单来说,流形嵌入理论关心的是如何将复杂的几何对象以一种“平滑”的方式放入一个更为直观的空间中,以便于研究和应用。
在深入嵌入理论之前,首先需要理解流形的概念。在数学中,流形是一个可以局部近似于欧几里得空间的拓扑空间,这意味着每一点都有一个邻域,这个邻域与某个欧几里得空间中的开集同胚(即存在一一对应且连续的映射)。流形可以视为更复杂空间的简化模型,它允许我们使用欧几里得空间的直观和技术来研究更广泛的几何对象。
流形嵌入理论的核心结果之一是嵌入定理。这些定理给出了流形可以嵌入或浸入更高维欧几里得空间的条件和方法。
流形嵌入理论在数学的许多领域都有应用,包括微分几何、代数几何、拓扑学和数学物理等。通过研究流形的嵌入和浸入,数学家们能够更深入地理解复杂几何对象的性质,从而推动这些领域的发展。
4 个主要(prime)空间,4 个对偶(dual)Token 序列空间
主空间之间的变换(transformation)经典数学描述
对偶空间之间的 transformation 由 transformer 实现
框图是否可交换?
上面的图展示的是目前生成模型涉及到的几个部分,全部可以归结到一个框架里面。主要包括了两个描述空间:主空间和对偶空间,在每个空间里面又设计到:像素域、隐空间域、diffusion映射后高斯噪声域、以及用来对齐标定用的指标域(文本)。
围绕这主空间、对偶空间衍生衍生出了两大类的生成算法,两大空间又较差、通过隐空间的桥接映射构建出很多类算法;针对需不需要做diffusion映射又衍生出很多类算法。当然这些算法都是依托流行假设定则,只是在求解问题过程中对问题建模、对求解过程为了求解的方便做了各种假设。
像素空间到隐空间 VAE、clip、encode,隐空间到像素空间 +文本encoder对齐隐空间
隐空间做diffusion映射到高斯噪声,逆高斯噪声diffusion转成隐空间,隐空间decoder变成像素图+文本encoder对齐隐空间
像素空间diffusion映射到高斯噪声,逆高斯噪声diffusion转成像素空间图+文本对齐隐空间
token或patch压缩,解压缩还原生成信息
token或patch隐空间,解压到隐空间,隐空间翻译成信息
token或patch隐空间做高斯diffusion映射,逆高斯diffusion映射到隐空间,隐空间翻译成信息
token或patch空间做diffusion映射,逆高斯diffusion映射生成信息
因为现在对于生成问题在建模或者求解过程都做了简化、约束假设所以使得生成内容和实际的物理世界偏差较大。针对这些问题,底下介绍了集中可以在建模或者求解过程中让生成内容更贴近物理的数学理论作为后续可探索的方向。
灾变理论(Catastrophe Theory)是数学中的一部分,属于动力系统与微分拓扑学的一个分支,由法国数学家René Thom在1960年代提出。这一理论主要研究在连续变化的控制因素作用下,系统状态发生突然、不连续变化的现象。灾变理论试图解释和模拟自然界和社会中那些小的原因引起大的效果的情况,例如桥梁的突然坍塌、股市的突然崩盘、生态系统的突然变迁等。
灾变理论中的“灾变”指的是系统在平滑变化的外部条件下,其状态发生的剧烈、不可逆的跳跃。这种现象通常发生在系统的临界点上,即系统的稳定性发生改变的点。
René Thom提出了七种基本的灾变类型,这些类型可以用来描述大多数在三个或更少控制因素作用下发生的灾变现象。这七种基本类型包括:
灾变理论在多个领域都有应用,包括生物学、工程学、经济学、社会学等。在这些领域中,灾变理论被用来模拟和解释系统在特定条件下可能发生的剧烈变化。
尽管灾变理论在理论和应用上都取得了一定的成就,但它也受到了一些批评。主要的批评集中在理论的普遍性和实际应用的有效性上。一些批评者认为,灾变理论在解释复杂系统时过于简化,可能忽略了系统内部的动态性和复杂性。
总的来说,灾变理论为理解和分析系统在特定条件下发生剧烈变化提供了一个有趣且有用的框架,尽管它在应用上存在一定的限制,但仍然是数学和应用数学领域中的一个重要组成部分。
纤维丛示性类理论(Theory of Characteristic Classes of Fiber Bundles)是数学中的一个重要领域,特别是在拓扑学和微分几何中占有重要地位。示性类是纤维丛的拓扑不变量,可以用来区分不同的纤维丛结构,以及研究流形上向量丛和主丛的性质。这些类为研究流形的拓扑结构提供了强有力的工具。
纤维丛(Fiber Bundle)是一种拓扑结构,由一个总空间(Total Space),一个基空间(Base Space),以及一个典型的纤维(Fiber)组成。直观地说,纤维丛可以看作是基空间上“参数化”的纤维的集合,其中每一点上的纤维都是相同的。
示性类是纤维丛的一种拓扑不变量,用于区分不同的纤维丛结构。它们是流形的上同调群中的元素,可以用来研究流形的拓扑性质。示性类最初是为了研究向量丛(特别是切向量丛)而引入的,但后来被推广到更一般的纤维丛上。
示性类在数学的许多领域都有应用,包括但不限于:
纤维丛示性类理论是现代数学中的一个核心领域,它不仅丰富了拓扑学和微分几何的理论内涵,也为物理学和其他科学领域提供了有力的数学工具。
热扩散方程和最优传输方程(蒙日-安培方程)的正则性理论来解释
最优传输问题(Optimal Transport Problem)是数学中的一个经典问题,它起源于18世纪法国数学家加斯帕尔·蒙日(Gaspard Monge)的工作。这个问题的基本形式是寻找一种将一个质量分布转移到另一个质量分布的最经济方式,即在满足某些约束条件下最小化成本函数的问题。在20世纪和21世纪,最优传输问题和蒙日-安培方程(Monge-Ampère equation)在数学、物理、经济学和工程学等领域得到了广泛的研究和应用。
蒙日-安培方程是一个非线性偏微分方程,它在最优传输问题的研究中起着核心作用。这个方程描述了最优传输映射的性质,特别是在成本函数为二次成本时,最优传输问题可以通过求解蒙日-安培方程来实现。蒙日-安培方程的一般形式为:
det ( D 2 u ( x ) ) = f ( x ) \det(D^2u(x)) = f(x) det(D2u(x))=f(x)
其中,
u
(
x
)
u(x)
u(x) 是一个凸函数,
D
2
u
(
x
)
D^2u(x)
D2u(x) 表示
u
u
u 的Hessian矩阵,
f
(
x
)
f(x)
f(x) 是给定的正函数。
蒙日-安培方程的正则性理论研究的是解的平滑性和结构性质。这个理论的目标是确定在什么条件下蒙日-安培方程的解是光滑的(例如,具有连续导数)。正则性理论对于理解方程解的性质以及方程的数值解法都是非常重要的。
在最优传输问题的背景下,正则性理论的一个关键问题是确定在什么条件下最优传输映射是光滑的。这个问题的答案依赖于源和目标分布的性质,以及成本函数的具体形式。例如,当源和目标分布是绝对连续的,并且成本函数满足一定的正则性条件时,可以证明最优传输映射是光滑的。
最优传输方程(蒙日-安培方程)的正则性理论是一个高度活跃的研究领域,它涉及偏微分方程理论、凸分析、拓扑学和几何分析等多个数学分支。这个领域的研究不仅深化了我们对蒙日-安培方程本身的理解,也推动了最优传输理论和应用的发展。
ChatGPT 将语句分解成 Token,然后用 Transformer 学习 在上下文中 Token 间连接的概率分布。Sora 将视频分解成时空 Token,然后学习上下文中 Token 间连接的概率分布,并且依据这一概率分布生成时空 Token,连接 Token 再解码成短视频。 每个 Token 表达图像或者视频中的一个局部区域,不同局 部区域间的拼接成为问题的关键。Sora 相对独立地学习每 个 Token,将 Token 间的空间关系用训练集中体现的概率 来表达,从而无法精准表达 Token 间时空的因果关系。 这意味着 Transformer 用以表达 Token 之间的统计相关性, 无法精确表达物理因果律。虽然 transformer 可以在一定程度上操纵自然语言,但自然 语言无法准确表达物理定律,而物理定律目前只有偏微分方 程才能精密表达。这反应了基于概率的世界模型的某种局限性。 AGI 需要掌握抽象思维,和数学物理理论体系的符号表达。
物理理论中
量子微观层面:概率表示,但是概率波函数满足薛定谔方程;
介观层面:统计、随机微分方程;
宏观层面:偏微分方程,确定的因果律。
Hilbert 问题:不同层面的理论可否通过求极限而自然兼容
和因果律(右侧)。一切都取决于传 输代价函数 c(x, y),即问题本身决定了相关性还是因果律")
在最优传输理论中,相关性与因果律有着严格的数学描述,并且被整合到了一个统一的理论框架中。给定两个空间
(
Ω
,
μ
)
(\Omega, \mu)
(Ω,μ) 和
(
Ω
∗
,
ν
)
(\Omega^*, \nu)
(Ω∗,ν),我们可以如下描述因果律和相关性:
因果律通过传输映射
T
:
Ω
→
Ω
∗
T: \Omega \to \Omega^*
T:Ω→Ω∗ 来表达,其中事件
x
∈
Ω
x \in \Omega
x∈Ω 导致事件
y
=
T
(
x
)
y = T(x)
y=T(x) 必然发生。总传输代价可以表示为:
∫
Ω
c
(
x
,
T
(
x
)
)
,
d
μ
(
x
)
\int_{\Omega} c(x, T(x)) , d\mu(x)
∫Ωc(x,T(x)),dμ(x)
这里
c
(
x
,
T
(
x
)
)
c(x, T(x))
c(x,T(x)) 表示从事件
x
x
x 传输到事件
T
(
x
)
T(x)
T(x) 的成本。
相关性通过传输方案来表达,即联合概率分布
γ
:
Ω
×
Ω
∗
→
R
\gamma: \Omega \times \Omega^* \to \mathbb{R}
γ:Ω×Ω∗→R,其中
γ
(
x
,
y
)
\gamma(x, y)
γ(x,y) 表示事件
x
x
x 和事件
y
y
y 同时发生的概率。总传输代价可以表示为:
∫
Ω
×
Ω
∗
c
(
x
,
y
)
,
d
γ
(
x
,
y
)
\int_{\Omega \times \Omega^*} c(x, y) , d\gamma(x, y)
∫Ω×Ω∗c(x,y),dγ(x,y)
这里
c
(
x
,
y
)
c(x, y)
c(x,y) 表示从事件
x
x
x 传输到事件
y
y
y 的成本。
这两种描述方式为理解和处理最优传输问题提供了强有力的数学工具,使得我们能够在一个统一的框架下研究因果关系和相关性。在这个框架中,因果律关注的是确定性的传输映射,而相关性则关注的是概率性的联合分布,两者都旨在最小化总传输代价,但从不同的角度出发。
Kantorovich 定理是最优传输理论中的一个核心结果,它提供了最优传输方案(映射)的一个明确的数学描述。根据 Kantorovich 定理,最优传输方案(映射)可以通过最大化下面的泛函来找到:
max
φ
+
ψ
(
∫
Ω
φ
(
x
)
d
μ
(
x
)
+
∫
Ω
∗
ψ
(
y
)
d
ν
(
y
)
)
\max_{\varphi+\psi} \left( \int_{\Omega} \varphi(x) d\mu(x) + \int{\Omega^*} \psi(y) d\nu(y) \right)
maxφ+ψ(∫Ωφ(x)dμ(x)+∫Ω∗ψ(y)dν(y))
其中,
φ
+
ψ
≤
c
\varphi + \psi \leq c
φ+ψ≤c,
φ
:
Ω
→
R
\varphi: \Omega \to \mathbb{R}
φ:Ω→R 和
ψ
:
Ω
∗
→
R
\psi: \Omega^* \to \mathbb{R}
ψ:Ω∗→R 是定义在各自空间上的函数,
c
:
Ω
×
Ω
∗
→
R
c: \Omega \times \Omega^* \to \mathbb{R}
c:Ω×Ω∗→R 是成本函数,
μ
\mu
μ 和
ν
\nu
ν 分别是定义在空间
Ω
\Omega
Ω 和
Ω
∗
\Omega^*
Ω∗ 上的概率测度。
最优传输方案的支撑集合可以表示为:
Γ
(
γ
)
:
=
{
(
x
,
y
)
∣
φ
(
x
)
+
ψ
(
y
)
=
c
(
x
,
y
)
}
\Gamma(\gamma) := \{(x, y) | \varphi(x) + \psi(y) = c(x, y)\}
Γ(γ):={(x,y)∣φ(x)+ψ(y)=c(x,y)}
这里
Γ
(
γ
)
\Gamma(\gamma)
Γ(γ) 是指导致总成本最小化的那些
(
x
,
y
)
(x, y)
(x,y) 对的集合,也就是说,在这个集合中的每一对
(
x
,
y
)
(x, y)
(x,y),函数
ϕ
\phi
ϕ 和
ψ
\psi
ψ 的和恰好等于从
x
x
x 到
y
y
y 的成本
c
(
x
,
y
)
c(x, y)
c(x,y)。
Kantorovich 定理不仅揭示了最优传输方案的数学结构,而且提供了一种计算最优传输方案的方法。通过寻找满足上述条件的函数
φ
\varphi
φ 和
ψ
\psi
ψ,我们可以确定最优传输方案的支撑集合,从而解决最优传输问题。这一理论框架在数学、经济学、物理学等多个领域都有着广泛的应用。
Sora 相邻 Token 间的拼接做得很合理,但是整体拼接的视 频却可能出现各种悖谬。这意味着局部拼接与整体拓展之间 的鸿沟。 我们观察“幽灵椅子”视频,如果我们将视野限制在屏幕中 间的一个局部区域,则视频非常合理。仔细检测不同 Token 区间直接的连接,也非常连续光滑。但是整个椅子如鬼魅般悬空,这与日常经验中的重力场相悖。意味着 Transformer 学会了 Token 间局部的连接概率,但 是缺乏时空上下文的大范围整体观念。 再如 Sora 生成的“四足蚂蚁”的视频,蚂蚁的动作栩栩如 生,宛如行云流水。局部上非常流畅自然,令人不禁联想或 许在某个星球上存在这种四足蚂蚁。 但是整体上,地球的自然界并没有四足蚂蚁。这里局部的合 理无法保证整体的合理,这里的全局观念来自于生物学的事实。
Sora 生成的“南辕北辙跑步机”视频,如果我们观察每一个 局部区域,看到的视频都是合理的,视频 Token 间的连接 也是自然的. 但是整体视频却是荒谬的,跑步机与跑步者的方向相反。 这个视频的全局观与来自于人体工程学的事实相悖。目前的 Transformer 虽然可以学习局部的上下文,但无法学 习更加全局的上下文,这里的全局可能是物理中的重力场, 也可以是人体工程学,或者生物中的物种分类。 这种全局观点,恰是朱松纯教授提出的 AI 世界中的 “暗物 质思想”。 虽然每个训练样本视频都隐含地表达了全局的观念,但是 Tokenization 的过程却割裂了全局的观念,有限地保留了临 近 Token 间的连接概率,从而导致局部合理,整体荒谬的结果。 现代整体微分几何非常重视整体和局部的矛盾,为此发明了 多种理论工具。比如,我们可以在拓扑流形的局部构造光滑 标架场,但是无法将其全局推广,全局推广的障碍就是纤维丛的示性类。 复流形上,我们可以局部构造亚纯函数,但是整体上无法将 局部的函数拼接成整体的亚纯函数,这种局部推广到整体的 差异用层的上同调理论来精确刻画。很多物理理论都表示成 特定纤维丛的示性类理论,例如拓扑绝缘体理论。 这种局部容易构造,整体推广出现实质性困难的数学理论, 实际上是人类深层次探索自然的智慧结晶。这种整体的拓 扑、几何观点目前还没有推广到 AI 领域。由平均场理论,在粒子系统中,临近粒子之间有相互作用, 远处粒子彼此没有影响,这由关联长度来表达。在特定情形 下,系统的关联长度趋于无穷,则系统处于相变状态 (phase transition)。AI 中的相变,就是 “涌现”。 如果 Transformer 的上下文长度趋于无穷,那么 Transformer 发现了无所不在的自然法则,AI 就出现了智慧 涌现; 在物理中,相变具有共形不变性,这是相变理论的核心观点 之一;在 AI 中,共形不变的意义如何,依然在探索之中。
自然界的绝多数物理过程都是稳恒态与临界态的交替变化。
在稳恒态中,系统参数缓慢变化,容易获取观察数据;由此, Sora 系统学习到的数据流形,绝大多数都是由稳恒态的样 本所构成, 在生成过程中,Sora 非常容易生成稳恒态的视频 片段;
在临界态中(灾变态),系统骤然突变,令人猝不及防,很 难抓拍到观察数据。因此,临界态的数据样本非常稀少,几 乎在训练集中零测度。物理过程中的临界态样本多分布在数 据流形的边界, Sora 生成过程中往往跳过临界态。
但是在人类认知中,最为关键的观察恰恰是概率几乎为零的临界态。
Sora 生成小狗群在嬉笑斗闹,时而相互遮挡,时而散开。在 视频的某一刹那,屏幕中的 3 只小狗突然变成 4 只小狗。
4 只小狗的图片构成一个流形(或者连通分支),3 只小狗的 图片构成另一个分支,在 4 只小狗图片流形的边界处,有个 临界事件:四只小狗彼此遮挡,图片中只能看到 3 只小狗。
Sora 的扩散模型没有识别出流形的边界,而是冲破这边界, 在 3 只小狗图片的流形和 4 只小狗图片的流形间跨越。
正确的做法应该是先识别流形的边界,然后在物理无法跨越 的情形下(如 3 只边 4 只),在边界处返折回原来流形。
Sora 无法生成关键临界态的图像可能有如下原因:
物理过程中的不同稳衡态样本生成数据流形的不同联通分 支,临界态样本在稳恒态流形边界附近,在两个稳衡态流形 边界之间。
Sora 采用的目前最为热门的扩散模型,在计算传输映射的 时候,必然会光滑化数据流形的边界,从而混淆不同的模 式,直接跳过临界态图像的生成。因此视频看上去从一个状 态突然跳跃到另外一个状态,中间最为关键的倾倒过程缺 少,导致物理上的荒谬。
采用丘成桐先生发明的几何变分法求解最优传输映射,可以解决这个关键问题。
模式坍塌和模式混淆可以由最优传输映射的正则性来解释. 如果 目标测度的支撑集非凸, 则最优传输映射可能非连续, 在奇异集 合上间断. 由 Brenier 极分解定理, 一般的传输映射是最优传输 映射与保测度同胚的复合. 因此, 在这种情形下, 传输映射也是非 连续的. 深度神经网络只能表达连续映射, 因而无法表示一般的传输映射. 训练过程或者无法收敛, 或者收敛到某个连续的传输 映射, 其目标区域限制在某些模式, 而遗漏其他模式, 这导致了模 式坍塌; 或者收敛到某个连续传输映射, 其像覆盖所有模式, 同时 也覆盖了模式之间的空隙, 这导致模式混淆.
前面一部分介绍了生成模型的建模合理性假设:流行定则,以及现在流行的生成模型可以统一到一个框架:主空间-对偶空间-隐空间。以及现在生成模型存在一些问题:相关性和因果律的矛盾、局部合理和整体荒谬、临界状态缺失。这些问题主要问题在于建模的简化和为了求解的方便做的各种约束,导致了生成内容和实际物理世界的不符。针对此文章给出了一些可能的数学建模方向。
接下来部分会给出现在最火也是目前在实际效果上最好最接近真实物理实际的生成模型的介绍–《stable duffusion 3》论文。
这篇文章介绍了一种用于高分辨率文本到图像合成的新方法,展示了这种方法相比于现有的扩散模型在性能上的优势。文章的核心贡献包括:
文章还介绍了无模拟训练流的方法,提出了一种新的时间步采样方法,改进了之前的扩散训练公式,保留了校正流在少步采样区域的有利属性。此外,还展示了基于变压器的MM-DiT架构的优势,该架构考虑到了文本到图像任务的多模态性质。
实验部分,文章通过在ImageNet和CC12M数据集上训练模型,并使用不同的采样设置评估模型,来理解哪种方法最有效。结果表明,使用合成标注的模型明显优于仅使用原始标注的模型。
最后,文章还讨论了数据预处理和模型训练的细节,包括过滤训练数据以限制不希望的能力,预计算图像和文本嵌入,以及如何通过调整文本编码器的使用来权衡模型性能和内存效率。文章的结论强调了校正流模型在文本到图像合成中的扩展分析,提出的时间步采样方法,以及基于变压器的MM-DiT架构的优势。
修正流(Rectified Flow)是一种有前景的方法,用于加速预训练的扩散模型,Stable Diffusion 3的训练也采用RF 损失。然而,之前基于快速流的Stable Diffusion模型(如InstaFlow)的生成质量并不令人满意。为此,RF作者团队对原始的再流(reflow)流程进行了几项改进,显著提高了基于流的快速SD(Stable Diffusion)的性能。新模型学习了一个分段线性概率流,它可以在仅4步内高效生成高质量图像,称为分段修正流(PeRFlow)。此外,模型权重的offset:
Δ
W
=
W
P
e
R
F
l
o
w
−
W
S
D
\Delta W = W_{PeRFlow}-W_{SD}
ΔW=WPeRFlow−WSD ,可以直接作为SD基础模型上的即插即用加速器模块。
具体来说,PeRFlow具有几个特点:
修正流(Rectified Flows)提出了通过线性插值构建基于流的生成模型的方法,学习到的流的轨迹可以通过一种称为再流(reflow)的特殊操作来拉直。然而,再流过程需要通过模拟整个预训练的概率流来生成一个合成数据集,这消耗了大量的存储和时间,使得它不适合训练大规模的基础模型。为了解决这个限制,PeRFlow采用分段修正流。通过将预训练的概率流分成多个段,并在每个段内使用再流拉直中间的概率流,就可得到了一个可以在很少的步骤内进行采样的分段线性概率流。这种分而治之的策略成功避免了整个常微分方程(ODE)轨迹的繁琐模拟,从而允许载训练中在线执行分段再流操作。
如图所示,预训练的概率流(可以从预训练的扩散模型转换而来)将随机噪声分布映射到数据分布。使用常微分方程(ODE)求解器从曲线流中采样需要许多步骤。相反,PeRFlow将采样轨迹分成多个段(这里以两个为例),并通过重流操作使每个段变直。由于其分段线性的特性,一个训练良好的PeRFlow可以在很少的步骤中生成高质量的图像。
对于文本到图像的生成,Stable Diffusion 3 模型必须同时考虑文本和图像两种模式。因此,论文作者称这种新架构为 MMDiT,意指其处理多种模态的能力。与之前版本的 Stable Diffusion 一样,作者使用预训练模型来推导合适的文本和图像表征。具体来说,他们使用了三种不同的文本嵌入模型 —— 两种 CLIP 模型和 T5—— 来编码文本表征,并使用改进的自编码模型来编码图像 token。
改进的多模态扩散 transformer:MMDiT 块。
SD3 架构基于 Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合作提出的 DiT。由于文本嵌入和图像嵌入在概念上有很大不同,因此 SD3 的作者对两种模态使用两套不同的权重。如上图所示,这相当于为每种模态设置了两个独立的 transformer,但将两种模态的序列结合起来进行注意力运算,从而使两种表征都能在各自的空间内工作,同时也将另一种表征考虑在内
展示了该架构遵循可预测的规模化趋势,并且较低的验证损失与通过各种指标和人类评估测量的改进的文本到图像合成性能强相关。
研究了所提出模型和方法在不同参数规模(最高8B)下的表现
发现模型性能遵循可预测的规模化趋势,验证损失与文本图像生成性能(通过自动和人工评估)高度相关
最大规模的模型超越了现有最好的开源和商业模型
通过系统的实验设计和严谨的结果分析,这项工作全面评估了提出方法的有效性,为高分辨率文本到图像合成的发展提供了重要参考
1.https://piecewise-rectified-flow.github.io
2.https://swarma.org/?p=48487
3.https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。