运维做开发

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

作者：运维做开发 | 2024-07-12 09:38:13

赞

踩

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

CVPR2024 SHI Labs
https://arxiv.org/pdf/2305.16223
https://github.com/SHI-Labs/Prompt-Free-Diffusion

问题引入

在SD模型的基础之上，去掉text prompt，使用reference image作为生成图片语义的指导，optional structure image作为生成图片structure的指导来进行生成；
使用SeeCoder来提取参考图片的embedding作为生成条件，且SeeCoder是可以重复使用的，可以直接集成到另外的T2I模型中；

methods

使用SeeCoder代替CLIP text embedding；
SeeCoder包含三个部分，Backbone Encoder, Decoder, and Query Transformer，其中Backbone Encoder使用SWIN-L提取多尺度特征，该部分参数是冻结的；之后decoder使用卷积来使得多尺度特征通道数相同，然后进行flatten+concat，得到的结果通过self attn + ffn；之后Query Transformer输出视觉embedding；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/813374?site

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号