赞
踩
现在给出prompt要求在图1一个男人的基础上加上参考图2:
stable diffustion是扩散模型,它的核心作用机制就是对噪音的处理,prompt可以看做是我们的目标,通过不断的去噪过程,向着目标越来越靠近,最终生成出预期的图片。
IP-Adapter将图片单独提出作为一种提示特征,相比SD模型把图像特征和文本特征抽取后拼接在一起的方法,IP-Adapter通过带有解耦交叉注意力的适配模块,将文本特征的Cross-Attention 和图像特征的Cross-Attention区分开来,在Unet的模块中新增了一路Cross-Attention模块,用于引入图像特征。
img2img是直接将参考图传入unet,去替换了原始的随机噪音,这样所有的生成结果都是建立在它的基础上,于是有了前面人和老虎混杂的现象就比较好理解了。
图像特征由具有解耦交叉注意力的适配模块集成到预训练的UNet模型中。
把文本特征和图像特征分开cross-attention再相加,之前的想法大多数先将图像特征和文本特征拼接后再cross。
参考:
图像作为prompt#IP-Adapter
新一代“垫图”神器,IP-Adapter的完整应用解读
IP-Adapter:text compatible image prompt adapter for text-to-image diffusion models
IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。