当前位置:   article > 正文

DALL-E: Zero-Shot Text-to-Image Generation

zero-shot text-to-image generation

Zero-Shot Text-to-Image Generation 论文阅读笔记

摘要:
基于零样本(zero-shot)生成。使用两亿个文本-图像对训练。
公开源码(https://github.com/openai/DALL-E)不是很完善,缺了比如text encoder等关键部分。
这论文写得emmm不堪入目。

效果:
在这里插入图片描述

方法

训练阶段分两部分:

  1. 阶段一,压缩图片。训练一个discrete variational autoencoder (dVAE),即离散的变分自编码器来压缩256x256大小的RGB图片到32x32的image tokens,每个token有8192个可能值。(?)
  2. 将256个用BPE编码的text tokens和image tokens 连接在一起,然后训练一个自回归的transformer来建模text和image共同的分布。

整体思路是这样,细节看不太懂,之后再说。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/721289
推荐阅读
相关标签
  

闽ICP备14008679号