赞
踩
近期,华为诺亚方舟实验室等单位推出了PanGu-Draw模型架构。PanGu-Draw基于昇思MindSpore AI框架研发,在昇腾Atlas系列硬件加持下,文生图模型在数据利用、训练和推理方面的效率得到显著提升。框架支持多个图像扩散模型的高效融合,可以通过多条件图像生成和一阶段图像超分等方式进一步提升生成效果。
注:推理代码已经开源至MindONE仓库,欢迎大家下载使用:
https://github.com/mindspore-lab/mindone/tree/master/examples/pangu_draw_v3
在AI领域,如SD[1], SDXL[2], Imagen[3], DALL-E 3[4]等基于扩散模型的文生图模型正不断突破性能界限。这些模型经过二次训练,如采用ControlNet[5]、LoRA[6]等方法,已广泛应用于各种图像生成任务,如基于参考图、线条图、人体姿态图的生成。
随着文生图模型参数量和生成图像分辨率的不断提升,对训练数据及计算量的要求也随之增加。提高这些模型的数据利用、训练和推理效率,对于降低资源消耗、加速模型迭代更新、拓展应用场景至关重要。
华为推出的PanGu-Draw正是为解决这一挑战而生。该模型架构包含两大创新:一是面向效率提升的“时间解耦训练策略”,它将模型分为结构生成和纹理生成两个子模型,分别优化训练策略,从而提高了约48%的数据利用效率、51%的训练效率和50%的推理效率;二是“Coop-Diffusion算法”,该算法能够整合不同潜在空间或分辨率的图像扩散模型,为创新的图像生成任务提供了新途径。
基于昇思MindSpore和昇腾硬件训练所得的PanGu-Draw,在前代悟空画画的基础上进行迭代升级,参数量由Wukongv2的10亿参数升级到50亿参数,是当前业界最大的中文文生图模型。该模型在生成质量上不仅超越了开源模型如Taiyi-CN[7]和SDXL,还与业界领先的闭源模型如DALL-E 3和MJ v5.2媲美。此外,PanGu-Draw支持中英文双语混合输入,支持原生1024*1024图像直出,并且提供多尺寸输出可选,如16:9、4:3、2:1…等。
针对文生图模型的推理可玩性,PanGu-Draw提供了可量化的风格化调整选项: 如动漫、艺术性、摄影控制等,可以通过量化数值控制生成风格。
论文标题:
PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion
论文地址:
https://arxiv.org/abs/2312.16486
项目主页:
https://pangu-draw.github.io
代码仓:
https://github.com/mindspore-lab/mindone/tree/master/examples/pangu_draw_v3
1、方法介绍
1.1 资源高效的文生图模型训练策略:时间解耦训练策略
图1. 三种文生图模型训练策略的可视化说明以及它们在数据、训练和推理方面的资源效率比较。本文提出的时间解耦训练策略(Time-Decoupling Training Strategy)在资源效率方面显着超越了已有的级联训练策略(Cascaded Training)和分辨率提升训练策略(Resolution Boost Training)。
时间解耦训练策略(Time-Decoupling Training Strategy)在文生图模型的数据利用、训练和推理方面展现出显著的资源效率优势。如图1所示,与传统的级联训练策略(Cascaded Training)和分辨率提升训练策略(Resolution Boost Training)相比,时间解耦策略在资源利用上有着明显的优越性。
级联训练策略虽然数据利用效率高,但增加了三倍的训练和推理时间。分辨率提升训练策略在低分辨率训练后再提升至高分辨率,虽然节约了时间,但数据利用效率低。相比之下,时间解耦训练策略巧妙地将一个文生图模型拆分为两个专门的子模型:结构生成器和纹理生成器。这种分离策略不仅减少了对高性能计算资源的依赖,而且简化了训练流程,避免了复杂的模型分割和节点间通信成本。
在推理阶段,结构生成器首先从噪声图像生成基本轮廓,然后纹理生成器在此基础上添加细节,大幅提升了推理效率(约50%)。此外,结构生成器利用全量数据(包括高分辨率和放大的低分辨率图像)进行训练,提高了约48%的数据利用效率;而纹理生成器则在较低分辨率下进行训练,但仍以高分辨率采样,使总体训练效率提高约51%。
图2. 多扩散模型融合算法——Coop-Diffusion 算法的可视化。该算法提出两个子模块分别用于消除不同潜在空间和不同分辨率带来的差异,从而将多个扩散模型的去噪过程统一到同一空间。
华为提出的Coop-Diffusion算法通过两个子模块消除不同潜在空间和分辨率的差异,实现了多个扩散模型的高效融合。如图2所示,该算法成功将不同模型的去噪过程统一到同一空间中,为多条件图像生成提供了新的途径。
本算法首先使用像素图像空间作为桥梁,将不同潜在空间中的模型预测统一,实现了在同一潜在空间中的多模型融合。接着,针对不同分辨率的扩散模型,算法可以通过下采样或者经过特定步骤的上采样来实现不同分辨率模型的融合,而不会损害图像质量。
Coop-Diffusion算法的创新之处在于,它能够将先前难以兼容的多个扩散模型融合为一个统一的整体,从而在保持图像质量的同时,提高了模型在实际应用中的灵活性和效率。
下图展示了完整的算法流程。
图3. Coop-Diffusion多扩散模型融合算法流程。
2、实验结果
华为研究团队在昇思MindSpore全场景AI框架上成功实施了时间解耦训练策略,创造了突破性的文生图模型——PanGu-Draw。这款模型具备五十亿参数量,能够以中英文双语生成高分辨率、高质量的图像。为了实现中英文双语的图像生成功能,PanGu-Draw使用了专门的中文和英文文本编码器对输入文本进行特征提取。此外,为了适应多分辨率的图像生成需求,研究团队选择了1024x1024分辨率附近的11种不同分辨率,并将相应的位置编码融入到模型中。
在训练数据的构造上,团队为了确保数据的多样性和高质量,选用了包括Noah-Wukong[8]、LAION[9]、摄影、动漫、人像和游戏素材等多个来源的数据。这些数据经过了严格的筛选,包括基于CLIP分数、美学分数和水印分数的过滤,以及对低质量文本标注的剔除。同时,研究团队采用了基于开集检测模型和大型语言模型的方法,以确保获取高质量的文本标注。
最后,PanGu-Draw采用了Flash Attention、混合精度训练和梯度累积等技术,以优化显存使用。
2.1 量化指标比较
表1. PanGu-Draw在COCO 数据集上与英文文生图模型的比较。PanGu-Draw达到了开源模型中最好的生成质量,并且与业界最优的闭源模型生成质量相当。
表2. PanGu-Draw在COCO-CN数据集上与中文文生图模型的比较。PanGu-Draw达到了最优的生成质量。
表3. PanGu-Draw在人工评测中与基线模型的比较。PanGu-Draw比SD和SDXL生成质量更好,同时与DALL-E 3和MJ 5.2生成质量相当。
表1、2、3展示了PanGu-Draw与基线模型在中英文COCO数据集和人工评测中的量化指标比较结果。结果显示,PanGu-Draw达到了开源模型中最好的生成质量,并且与业界最优的闭源模型如DALL-E 3和MJ v5.2生成质量相当。
2.2 可视化结果比较
图4. PanGu-Draw模型与基线方法的可视化比较。使用的输入文本来自于RAPHAEL并展示在图片底部。PanGu-Draw模型的生成结果优于或与已有方法相当。
图4展示了PanGu-Draw与基线模型的可视化比较结果。可以看出,PanGu-Draw的生成结果优于或与已有方法相当。
2.3 生成结果展示
图5. PanGu-Draw生成的与输入文本语义一致的多分辨率高质量图像。
图5展示了PanGu-Draw的高质量多分辨率文生图结果。更多可视化结果可见项目主页。
图6. 基于Coop-Diffusion算法融合了图像重构模型和PanGu-Draw实现的多条件(中文文本+图像)图像生成。
图7. 基于Coop-Diffusion算法融合了低分辨率图像生成模型和PanGu-Draw模型实现的一阶段超分效果。其中,左边一列是低分辨率图像生成模型的低分辨率生成结果,右边一列是融合了PanGu-Draw的高分辨率生成结果。
最后,如图6、7所示,Coop-Diffusion算法使得PanGu-Draw能够与已有模型进行融合从而无需额外训练就能够应用在多条件图像生成和一阶段图像超分任务中。
3、总结
创新的训练策略:华为的PanGu-Draw架构引入了一种资源高效的文生图模型训练策略——时间解耦训练策略。这一策略显著提升了文生图模型在数据利用、训练和推理方面的效率,为AI图像生成领域带来了新的突破。
多模型融合的突破:PanGu-Draw架构还提出了一种创新的多扩散模型融合算法——Coop-Diffusion。该算法成功地将不同潜在空间和分辨率的扩散模型去噪过程统一到同一空间,实现了多个图像扩散模型的有效融合,开辟了新的图像生成途径。
生成质量与灵活性:在生成质量方面,PanGu-Draw不仅在业界开源模型中名列前茅,而且与顶尖的闭源模型如DALL-E 3和MJ v5.2的生成质量相媲美。此外,Coop-Diffusion算法的引入使得PanGu-Draw能够与现有模型融合,无需额外训练即可应用于新的下游图像生成任务,显示了极高的适应性和实用性。
[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj¨orn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022. 6
[2] Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas M¨uller, Joe Penna, and Robin Rombach. Sdxl: improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952, 2023. 3, 5, 6, 7, 2
[3] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35:36479–36494, 2022. 1, 2, 5
[4] James Betker, Gabriel Goh, Li Jing, Tim Brooks, Jianfeng Wang, Linjie Li, Long Ouyang, Juntang Zhuang, Joyce Lee, Yufei Guo, et al. Improving image generation with better captions. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2023. 7
[5] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3836–3847, 2023. 1, 3, 2
[6] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen- Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021. 2, 1
[7] Jiaxing Zhang, Ruyi Gan, Junjie Wang, Yuxiang Zhang, Lin Zhang, Ping Yang, Xinyu Gao, Ziwei Wu, Xiaoqun Dong, Junqing He, Jianheng Zhuo, Qi Yang, Yongfeng Huang, Xiayu Li, Yanghan Wu, Junyu Lu, Xinyu Zhu, Weifeng Chen, Ting Han, Kunhao Pan, Rui Wang, Hao Wang, Xiaojun Wu, Zhongshen Zeng, and Chongpei Chen. Fengshenbang 1.0: Being the foundation of chinese cognitive intelligence. CoRR, abs/2209.02970, 2022. 7
[8] Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Niu Minzhe, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, et al. Wukong: A 100 million large-scale chinese cross-modal pre-training benchmark. Advances in Neural Information Processing Systems, 35:26418–26431, 2022. 6
[9] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. In arXiv, 2021.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。