赞
踩
该论文发表在CVPR 2022上
目录
DiffusionCLIP的主要任务就是利用CLIP和Diffusion模型做图像处理(这里的处理指按照指定的命令修改图像风格,或者修改图像所包含的内容)。
读这篇文章之前,我们可以回顾一下CLIP模型的结构和功能 CLIP, 总结一下就是,做文本和图像在特征空间上的特征对齐,可以作为预训练模型应用到下游的CV任务/多模态任务上。
回顾一下 Diffusion Model,Diffusion Model 主要通过添加噪音的Forward过程和去除噪音的Reverse过程来训练生成模型,从而模型具有从高斯分布的噪音中采样真实图像的能力。但是由于Forward过程和Reverse过程有随机的变量,因此将一个图像映射成一个噪音向量后,并不能保证可以从这个噪音空间中恢复出原图,本文也提出了方法解决上述问题。
这里可以先把DDPM理解为不确定地Forward和Reverse过程,而DDIM是确定性地Forward和Reverse过程。
(DDIM/DDPM存疑-需要查看原论文)
首先,论文回顾一下经典的两个Diffusion Model模型,DDPM [1] 和DDIM[2]
DDPM的逆向过程为:
(1)
其中 .
模型架构如上所示:
首先图片经过Diffusion Forward Step 转换成噪音数据,这个阶段利用的模型是预训练的模型,其参数是不能更改的。在Reverse Step,我们需要修改数据内容,因此需要根据Loss调整 的参数。
由上可见,其实修改图像的效率不是很高,如果模型复杂的话,那么计算量将会更大。并且,forward过程可以不用完全执行,可以diffusion到一定阶段,保留图像的一些语义信息,这样也会更利于 reverse过程中生成的图像保留原始图像的语义。
那么如何用CLIP来设计loss调整图像呢?
文章首先定义了, 用来保证模型沿着我们指定的文本内容修改图像。
(2)
其中 , 分别表示CLIP模型对图像和文本的特征表示。gen表示Diffusion 模型生成图像,tar表示我们想得到的图像风格或者内容,ref表示原图和原描述(如果没有可以简单指定为picture,human等)。
除了风格/内容修改之外,我们还希望生成图像和原图能够对应,因此还需要 ,
这样就可保证在原始内容基本不变的情况下完成风格转换,或者内容修改。
因为之前提到了,Diffusion Model在正向或者逆向过程都会引入随机变量,因此很难保证可以从隐空间(高斯噪音空间)恢复出原始图像。
为了首先确定的Reverse过程,文章采用确定的DDIM reverse process,定义如下:
(3)
其中,, 是在 时刻对的预测。
在Forward过程可以利用ODE近似确定,定义如下:
经过这样修改,Forward过程和Reverse过程都是确定性的过程,(注意ODE近似并不能保证完全相同)。
首先我们需要确定什么是未知Domain。假设我们训练Diffusion模型用的数据是自然图像(相机拍摄图像)。那么油彩画风格的图像,我们的Diffusion模型没有训练过,那么油彩画风格的图像就是未知Domain或Unseen Domain。
下面可以将任务分类:
详细的论文中的可视化为:
实验结果中Recon的结果值得重点关注:
从上面可以看出,DiffusionCLIP的重建能力比较强,相当于完成了一个Encoder,Decoder的功能。
上述是重建能力的量化图表结果。
也有一些其他的数据,不过是用人的问卷作为评价,因此在本博客中不具体说明。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。