当前位置:   article > 正文

Structured Denoising Diffusion Models in Discrete State-Spaces【D3PM重点笔记】

structured denoising diffusion models in discrete state-spaces

Structured Denoising Diffusion Models in Discrete State-Spaces离散状态空间中的结构化去噪扩散模型笔记

摘要

本文:

  • 引入了离散去噪扩散概率模型D3PMS ,其退化包括了:
    • 连续空间中模仿高斯核的过渡矩阵的退化
    • 基于嵌入空间embedding space中最近邻的矩阵
    • 引入吸收状态的矩阵
  • 说明了过渡矩阵的选择非常重要,导致了文本和图像的改进结果
  • 引入了新的损失函数,该函数将变分下限与辅助交叉熵损失结合起来。

本文结果:

  • 文本:字符级文本生成取得了良好的结果
  • 图像:接近样本质量,并超过了连续空间DDPM模型的对数可能性

1 引言

这项工作的目的:

  • 通过使用一个更加结构化的分类退化过程来塑造数据生成、改进和拓展离散扩散模型
    • 不需要将离散数据嵌入到连续空间
    • 可以将结构或领域知识嵌入到正向过程的过渡矩阵中

作者:

  • 开发了适合文本数据的结构化退化过程
  • 探索了插入[MASK]标记的退化过程
  • 量化了图像的离散扩散模型(优先扩散到更多相似状态)
  • 引入了新的辅助损失,稳定了D3PMS的训练
  • 引入了一系列基于相互信息的噪声计划,提高了性能
    • 成功地将离散扩散模型拓展到大词汇量和长序列长度。

2 背景:Diffusion Models

回顾了Diffusion Models的前向过程和逆向过程,以及其对应的表达式。

3 离散状态空间的扩散模型

我们简要地描诉了一个更普遍的分类随机变量扩散框架:

对于具有K个类别的标量离散随机变量 x t , x t − 1 x_t,x_{t-1} xt,xt1,他们的前向转移概率,可以用矩阵表示:

[ Q t ] i j = q ( x t = j ∣ x t − 1 = i ) [Q_t]_{ij}= q(x_t=j|x_{t-1}=i) [Qt]ij=q(xt=jxt1=i)

用行向量 x \mathrm{x} x来表示 x x xone-hot向量,则可以把概率改写为:

q ( x t ∣ x t − 1 ) = C a t ( x t ; p = x t − 1 Q t ) q(\mathrm{x_t}|\mathrm{x_{t-1}}) = Cat(\mathrm{x_t};p=\mathrm{x_{t-1}}Q_t) q(xtxt1)=Cat(xt;p=x

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/237379
推荐阅读
相关标签
  

闽ICP备14008679号