赞
踩
本文根据google research 团队2023年1月的《Muse: Text-To-Image Generation via Masked Generative Transformers 》翻译总结的。Muse认为模型可能被乱用,代码没有开源。
图像生成有GAN、扩散(diffusion)、自回归模型等,而Muse采用mask图像的建模方法,非扩散、非自回归。给定从预训练大预言模型(LLM)中提取的文本embedding,Muse是被训练来预测随机mask的图像token。
Muse的预测时间比相同参数量Imagen-3B、Parti-3B快10倍。比Stable Diffusion v1.4快3倍。
Muse总体来说有如下3点:
如上图,整个模型分为三部分(三行),分别为文本编码、base模型、超分辨率(super-resolutio )模型。
T5-XXL的预训练text encoder将文本转为text embedding,其会传入到base transformer和superRes transformer。base模型使用预训练的VQ tokenizer将低分辨率图像(256*256)转换为16*16的图像token,这些token接着会被部分mask掉,然后通过交叉熵损失(cross-entropy loss)来预测恢复这些被mask的图像token。一旦base模型训练完成,恢复(reconstructed)出来的token和文本token会输入到super-res模型,最终学习预测恢复高分辨率的被mask的图像token。
使用LLM可以提升高质量的图片生成。
我们采用T5-XXL输出4096维的embedding。
我们模型的一个核心组件是使用VQGAN来获得图像语义token。VQGAN包括编码器和解码器,有个量化层会将输入图像转换为token序列。我们用卷积层构建编码器和解码器,方便支持不同分辨率。编码器有很多下采样模块来降低输入的维度,而解码器有对应数量的上采样模块来还原到原始图片大小。
给定H*W的图片,编码器下采样率f,输出的token大小就是H/f *W/f。
我们训练了两个VQGAN,下采样率分别是f=16和f=8. 使用f=16的VQGAN于256*256图片,输出16*16大小token。使用f=8的VQGAN于512*512图片,输出64*64大小token。
这些离散的token方便使用交叉熵损失(cross-entropy loss)来预测恢复这些被mask的图像token。
base mode是 masked transformer 。利用所有没有mask的文本embedding和随机mask一部分的图像token,替换他们用[mask]token.
我们采用级联的形式,训练完base model再训练super-res模型。高分辨率过程是学着将低分辨率隐变量转换为高分辨率隐变量。
我们通过附加更多的残差层和通道来增加VQGAN编码器的能力,而编码器保持能力不变。
采用一个cosine 计划。从下面分布采用mask 率r。
我们采用分类器自由引导(CFG:Classifier Free Guidance)来改善生成的质量和文本-图像对齐。
在训练时,我们10%随机去掉文本,这时候注意力就将为图像自注意力。
CFG用多样性换取准确性。通过增加t,减少对多样性的打击。
在单独前向过程,使用并行编码预测多个输出。并行编码的主要假设是马尔可夫属性,许多token是条件独立于其他token。编码基于cosine 计划,步骤里先选择高可行度的mask token的一定片段。这些token然后在剩下的步骤里设为unmask,这样mask token的集合就减少了。使用这个过程,我们有能力在base模型中只使用24个编码步骤进行256个token的预测。在超分辨率模型中使用8个编码步骤进行4096个token预测。而自回归模型分别需要256步或者4096步,扩散模型也需要上百步。
我们在Imagen数据集上训练的,含4.60亿文本-图片对。训练了一百万步,批大小512,在512核的TPU-v4,训练了1周时间。
如下图,可以在基数(cardinality)、组合(composition)、风格、文本书写、整个提示的使用等情况,生成的图片质量都很好。但在长的文本书写、高基数下效果一般(右下角图)。
和其他模型比较,Muse效果好些,尤其比DALL-E 2好些。
Muse在CC3M数据集上效果最好。
Muse在MS-COCO数据集上效果也好。
CLIP和FID之间会存在权衡,即在没有伤害CLIP下改善FID。如下图:
比较生成的图片和哪个描述匹配。我们发下Muse生成的在70.6%情况下,评委人员认为比stable diffusion好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。