搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
你好赵伟
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
K8S认证|CKA题库+答案| 15. 备份还原Etcd
2
今日选题。
3
makefile清除目标文件的规则_makefile 宏 删除指定文件
4
解决github网站的css,js文件被墙
5
Hadoop 集群搭建_hadoop集群搭建
6
Git学习篇-指令全集
7
基于Python的豆瓣电影评论数据分析与可视化(源代码+可远程部署安装)_评论数据研究背景
8
PTAN实战二 || 智能体agent类_自定义dqnagent
9
数据结构(C语言)快速排序_数据结构排序综合c语言
10
iOS 图片轮播图浅析,教你用SDCycleScrollView自定义样式,附带轮播头部下拉放大效果_sdcyclescrollview 自定义
当前位置:
article
> 正文
文生图——DALL-E 3 —论文解读——第一版_dall-e3论文解读
作者:你好赵伟 | 2024-05-29 15:44:07
赞
踩
dall-e3论文解读
概述
本文主要是DALL·E 3官方第一版技术报告(论文)的解读,原文《Improving Image Generation with Better Captions》论文解读。该文要提升文生图的效果,将技术点放到了,提升指令跟随能力上,然后顺藤摸瓜分为提升训练数据caption(使用模型合成caption),当然也要提升模型(关于模型结构、训练策略、数据集等都未做过多介绍,但是官方又明确提到,除了数据,模型也起到了不少的作用)。
一句话省流版,数据方面,训练时使用95%模型(CoCa)合成详细描述caption + 5%原本人类 caption,测试时使用GPT-4v 扩写人类caption;模型方面使用T5xxl + vae encoder + diffusion latent + 自家decoder 取得最好效果。
效果
参考几个之前公众号推出的测试效果:
DALL·E 3内部实测效果惊人!Karpathy生成逼真灵动「美国小姐」,50个物体一图全包
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/你好赵伟/article/detail/642978
推荐阅读
article
【
学习
日记
week10
】
LDM
,
DALL
-E2基于
扩散
模型
的
生成
方式,以及跨模态
生成
_ldm
扩散
模型
...
Diffusion model在图像
生成
领域取得了很大的成功,但是,
扩散
模型
因为完全是在像素级别进行训练,一个好的DMs...
赞
踩
article
理解<
e
m>DALL
e
m>·E 2, <
e
m>Stabl
e
e
m> <
e
m>Diffusion
e
m>和 <
e
m>Midjourn
e
y
e
m>工作原理_sd、da...
【者按:随着AIGC的兴起,各位小伙伴们对文生图工具<
e
m>DALL
e
m>-E 2、<
e
m>Stabl
e
e
m> <
e
m>Diffusion
e
m>和Midjourn...
赞
踩
article
李沐
论文
精读系列五:
DALL
·E2(
生成
模型
串讲,从
GANs
、VE/
VAE
/VQ-
VAE
/
DALL
·...
详细讲了
DALL
·E2的结构、算法、效果,并补充讲了以前的
生成
模型
知识点_
dall
-
e2
论文
dall
-
e2
论文
...
赞
踩
article
DALL
·
E
2
解读 | 结合预
训练
CLIP
和扩散
模型
实现
文本
-图像生成_
dall
·
e
2
中的数据预...
DALL
·
E
2
这个
模型
的任务很简单:输入
文本
text,生成与
文本
高度对应的图片。它主要包括三个部分:
CLIP
,先验模...
赞
踩
article
DALL
·
E
-2是如何工作的以及
部署
自己的
DALL
·
E
模型
_
dall
-e
mini
可以
离线
部署
吗...
,我们将简单介绍
DALL
-
E
2是如何工作的,并且把
DALL
·
E
Mini生成的图像输入到其他图像处理
模型
(GLID-3-...
赞
踩
article
“超越智能边界:揭秘集成免费ChatGPT
3
.5
、
GPT4.0
、
DALL
·E
3
和Midjourne...
MidTool,被广泛誉为迷图网或
Midjourney
的
AI
绘画聊天工具,是一个强大的人工智能助手平台,汇聚了ChatG...
赞
踩
相关标签
学习
人工智能
深度学习
计算机视觉
图像生成
论文
迁移学习
神经网络
gpt-3
midjourney
gpt
ai
chatgpt