文生图——DALL-E 3 —论文解读——第一版_dall-e3论文解读

作者：你好赵伟 | 2024-05-29 15:44:07

踩

dall-e3论文解读

概述

本文主要是DALL·E 3官方第一版技术报告（论文）的解读，原文《Improving Image Generation with Better Captions》论文解读。该文要提升文生图的效果，将技术点放到了，提升指令跟随能力上，然后顺藤摸瓜分为提升训练数据caption（使用模型合成caption），当然也要提升模型（关于模型结构、训练策略、数据集等都未做过多介绍，但是官方又明确提到，除了数据，模型也起到了不少的作用）。

一句话省流版，数据方面，训练时使用95%模型（CoCa）合成详细描述caption + 5%原本人类 caption，测试时使用GPT-4v 扩写人类caption；模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。

效果

参考几个之前公众号推出的测试效果：

DALL·E 3内部实测效果惊人！Karpathy生成逼真灵动「美国小姐」，50个物体一图全包

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/642978