当前位置:   article > 正文

李沐学AI--DALL·E 2 + Diffusion Model_跟着李沐学ai diffusion

跟着李沐学ai diffusion

DALL·E 2
DALL·E2

CLIP的一半的反过程
clip是 text–> text feature
image --> image fueture
对比找相似的,就能进行分类任务,将给定的图像与给定的text对应起来。

dall e2是
text – > text feature --> image feature -->(扩散模型)–> image
就能进行图像生成了,就是从text到图像。其中image feature是使用CLIP监督的。


DALL·E2原文讨论了五六个它自己的局限性/可能的发展方向,但这不影响它很强

有意思的局限:

无法很好的理解上下左右的位置关系

无法理解 逻辑关系,可能是因为CLIP就是找图片-文本对,找文字描述的具有某些物体所对应的图像,而不能理解上下左右等关系?

图片中的文字没有逻辑
图片中的文字没有逻辑。生成的图中的文字是逻辑混乱的。

扩散模型讲解

GAN网络模型

GAN:

noise Z 生成器 x' 判别器 x 0/1

训练不够稳定
尽可能的真实,但是多样性不高,主要是来自于噪声
不是一个概率模型(?),生成都是隐式的,不知道数据的内在分布

GAN不是概率模型的解释:
无明确的概率解释:GAN的生成器并不直接建模数据的概率分布,而是通过一个随机噪声向量生成数据,这个过程没有明确的概率解释。
无法进行精确的推断:在概率模型中,你可以根据已知的数据推断出未知的参数。但在GAN中,由于没有明确的概率模型,你无法进行这样的推断。
训练过程与概率无关:GAN的训练过程是一个最小化生成器和判别器之间的“对抗”损失函数的过程,而这个过程与概率无关。

AE: Auto-Encoder

x
encoder
bottle neck
decoder
x'

DAE: Denoising Auto-encoder

x
xc corrupted x
encoder
bottle neck
decoder
x'

类似的还有MAE:masked auto-encoder
主要就是去学习bottleneck那个特征,拿特征图/向量去做检测分割等任务
但是这个不是随机噪声,是用来重建的一个特征,没办法做生成任务,为什么?

VAE: Variational Auto-encoder

Decoder
x
Encoder
distribution u, sigma
z = u + det * sigma
z
x'

待仔细研读,怎么将其转化为概率模型的?

VQVAE: Vector Quantised Variational Auto-encoder

x
e
f
z
fa
Decoder
x'

Diffusion Model

x
x1
..
xi
...
x' 纯噪声

再从噪声恢复回去,就是图像生成。

DDPM 思想类似resnet,预测噪声而不是每一步中的图像

扩散模型的分数是
inception score:
IS score:
FID score:

improved DDPM

Diffusion Model Beats GAN

在这里插入图片描述

DALL·E2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/820173
推荐阅读
相关标签
  

闽ICP备14008679号