赞
踩
机器需要大量的脑补
直接把图片的像素拉直,当成文字那样处理。
但是这样太耗时
因为每一个像素独立绘制,因此效果不好
怎么样去找一些成对的训练集?使用Encoder产生。(图中省略了输入文字)
因为Encoder必须是Invertible的,因此输出的vector的维度必须和输入的一样。(图上没画好)
只learn decoder没有learn encoder。
Decoder要做的就是调整他自己,让判别器表现得越差越好。
这里的Denoise都是同一个model
从哪获取训练资料——怎么找到杂屑的ground truth?这是人类自己创造的
加噪音——Forward Process(Diffusion Process)
数据集:LAION-5b
来源论文:Denoising Diffusion Probabilistic Models
现在最好的图像生成模型由三个元件组成:
1、Text Encoder
2、Generation Model(Stable Diffusion或者其他)
3、Decoder
三个元件分开训练再合起来
encoder对结果影响很大,相对而言diffusion model(这里指那个noise predicter的大小)对结果影响就不大。
杂屑不是加在图片上,而是加在中间产物上
训练时不需要labelled data
越小越好
越大越好
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。