当前位置:   article > 正文

文生图——DALL-E 3 —论文解读——第一版_dall-e3论文解读

dall-e3论文解读

概述

    本文主要是DALL·E 3官方第一版技术报告(论文)的解读,原文《Improving Image Generation with Better Captions》论文解读。该文要提升文生图的效果,将技术点放到了,提升指令跟随能力上,然后顺藤摸瓜分为提升训练数据caption(使用模型合成caption),当然也要提升模型(关于模型结构、训练策略、数据集等都未做过多介绍,但是官方又明确提到,除了数据,模型也起到了不少的作用)。
    一句话省流版,数据方面,训练时使用95%模型(CoCa)合成详细描述caption + 5%原本人类 caption,测试时使用GPT-4v 扩写人类caption;模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。

效果

    参考几个之前公众号推出的测试效果:
    
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/642978
推荐阅读
相关标签
  

闽ICP备14008679号