很楠不爱3

这个屌丝很懒，什么也没留下！

热门标签

ID保持的人像生成_stable diffusion保id

作者：很楠不爱3 | 2024-04-23 03:58:47

踩

stable diffusion保id

4. EasyPhoto:高质量SDWebui艺术照插件

5. PhotoVerse

6. 无需Lora炼丹也能保持同一人物？ControlNet新功能Refrece Only测评

AIGC真实人像写真，也即输入一些图片，生成图片里对应人物在不同场景和风格下的图片。妙鸭相机作为AIGC领域一款成功的收费产品为大家展示了如何使用AIGC技术只需要少量的人脸图片建模，即可快速提供真/像/美的个人写真，在极短的时间拥有了大量的付费客户. 目前面临很多的挑战: 超长的训练微调时间、大的存储需求、需要输入多张图(落地时期望只输入一张)、在保持ID和风格可编辑间进退维谷、此消彼长.

妙鸭相机是图像生成式AI在国内的首款现象级应用，由阿里和优酷内部孵化而来。团队对妙鸭相机的定位是「每个人的AI摄影师」，希望可以帮助用户「便宜、快捷、安全地追求美」。而社交媒体上的晒图热情也体现了大众对妙鸭生成效果的肯定。「表情自然」「像自己又比自己美一点」是常见的对其的评价.

目前大致可分为训Lora绑定ID和免训练通过解耦交叉注意力注入两大路线，训Lora的优点是相似度高，可控性好，但普遍耗时较长，在数分钟到半小时不等；免训练的有点是速度快，仅需要5-10秒即可拿到结果，但相似度较训Lora要差一个量级

InstantID、PhotoMaker、FaceIDPlusV2、FaceIDPlusV2_SDXL、FaceIDPortrait人脸生成效果比较

免训练

免训练最大优势就是速度快，用户体验好，但是和输入图片相似的程度有待提升，涌现了一系列方法

1. InstantID 小红书

code、论文、demo体验地址

InstantID彻底火了！来自中国的开源项目，图灵奖得主Yann LeCun点赞（附论文及源码）

一个基于扩散模型的图像生成解决方案，能实现从单一参考图像到多样化风格化写真的快速生成。用户只需上传一张自拍，20 秒就能得到定制版 AI 写真. 无论是古典油画中的贵族，或是未来都市中的赛博朋克英雄，多种风格，切换自如.

作为一个高效、轻量级、可插拔的适配器，它为预训练的文本到图像扩散模型赋予了强大的身份信息保留能力.InstantID 不训练文生图模型的 UNet 部分，仅训练可插拔模块，在推理过程中无需 test-time tuning，在几乎不影响文本控制能力的情况下，实现高保真 ID 保持

2. PhotoMaker 速度慢，150秒，和训Lora比没有显著优势

code、爆火！腾讯开源PhotoMaker：高效地定制化生成任意风格的逼真人类照片！

首先分别从文本编码器和图像编码器中获得文本嵌入和图像嵌入。然后，通过合并相应的类嵌入(如男人和女人)和每个图像嵌入来提取融合嵌入。接下来，沿着长度维度将所有融合嵌入连接起来，形成堆叠ID嵌入。最后，将堆叠的ID嵌入馈送到所有跨注意层，以自适应地合并扩散模型中的ID内容。需要注意的是，虽然在训练过程中使用的是相同ID，背景masked的图像，但是我们可以在推理过程中直接输入不需要背景失真的不同ID的图像，从而创建一个新的ID

3. FaceChain-FACT

FaceChain-fact：Face Adapter for Human AIGC

4. IP-Adapter

7分钟完全掌握IP-Adapter

IP-Adapter初体验 - 知乎

IP-Adapter到底是个什么呢，我理解的话它就是一个将图像token转变为和文字prompt一样，以此去调整原来文生图，达到他最后想要的结果。比如，有一段文字叫“带墨镜”，如果用文生图最后会随机给你一个带墨镜的男人或者女人或者其他，这个和当初训练文生图的数据集分布有关。那么我现在就想是个男人带墨镜，那么我用一个男人的照片送到这段文字前面，变成图像token+文字合起来的prompt，最后不就可以变成男人图像了吗。但是问题就在于你这个男人的照片过去的文生图模型不认识啊，所以你的微调应该是希望这个图像token变为“男人”这个文字的编码。

那么如何训练呢？这里可没有一张真正带墨镜的男人图片。实际上这里并不是一个有监督，如果我们对这个男人的图片加噪，就是加噪后的图像，然后通过unet预测噪声，在预测的同时注入这个男人的图像token信息以及带墨镜的信息（图中cross attention）。因为除了对图像token进行学习以外，其余网络均固定。所以带墨镜这个信息是一直有的，出来的结果也是XX带墨镜的图像，只是谁带就不知道了。注入图像信息就是让文生图模型自我调节出一张图像，这个图像就是XX，同时也是输入的这个男人。在最初的噪声推理时，原本是不带男人的信息的，因为男人的照片加噪了很多步，信息已经没了。但是这个图像token（要和文字合并的）带了这个男人的信息，所以可以诱导扩散模型一步步生成一个像他的照片。这样最终就可以生成一张男人带墨镜的照片了，笔者最开始学的时候，这里还挺疑惑的，因为损失是和男人原图对比，而原图没有墨镜。实际上笔者想法是没有错的，要想男人带墨镜还需调节一个融合的参数，也就是图像和文字的合并。

AI重磅更新！一张图就能实现画风迁移！腾讯团队出品IP-Adapter支持ControlNet

京东｜【羚珑AI智绘营】IP-Adapter，新一代“垫图”神器 · 语雀

IP-Adapter的核心优势，只画你关心的事

IP-Adapter和img2img虽然在操作上都是“垫图”，但它们的底层实现可以说是毫无关系

img2img相当于直接盖在参考图上开始临摹，虽然知道要画个男人，但会在老虎的基础上去修改，始终会很别扭，中间不免出现老虎和男人混淆的情况，画出一些强行混合不知所谓的图来。因为在这个流程中，参考图更为重要，一切是在它基础上画出来的，结果也更倾向于参考图

IP-Adapter则不是临摹，而是真正的自己去画，它始终记得prompt知道自己要画个男人，中间更像请来了徐悲鸿这样的艺术大师，将怎么把老虎和人的特点融为一体，讲解得偏僻入里，所以过程中一直在给“男人”加上“老虎”的元素，比如金黄的瞳仁、王字型的抬头纹、虎纹的须发等等。此时，prompt更为重要，因为这才是它的始终目标。

当然这些都是在一定的参数范围内，超过了阈值，那必然是要走极端的，照着参考图去copy了。但即便这样也可以看到img2img只是1:1的复制，而IP-Adapter有更多prompt的影子

当我们拥有这些特征，几乎就得到一个“即时lora”，而需要付出的成本只是去找几张符合预期的参考图

聊点硬核的: IPAdapter算法理论及在Stable Diffusion中的使用方法(一)

IP-Adapter：用于文本到图像扩散模型的文本兼容图像提示适配器

输入一个大卫雕像，它就相当于一个image prompt，加上不同的controlnet及不同的sd模型，也会出现不同的效果

可以适配Stable Diffusion的任何基底模型

还可以和ControlNet或者T2I-Adapter结合在一起实现结构控制

可以用于图生图以及图像inpainting

还可以同时使用图像提示词和文本提示词

训练lora

1. FaceStudio

FaceStudio: Put Your Face Everywhere in Seconds

2. 妙鸭相机不开源

对话「妙鸭」产品负责人：AIGC 的产品第一天不收钱，就可能收不到钱

无论在哪里对于美和摄影的需求是存在的，因为人们总是希望为自己留下值得纪念的照片

妙鸭为什么会走红？最重要的因素是团队成员的坚定和努力。团队氛围简单、直接，目标清晰，追求极致的风格。我们花了三个月以上的时间打磨一个效果，以获得更好的用户体验和效果。第二是公司对创新的鼓励、支持、包容，以及看到一些阶段性成果之后，进一步的支援

怎么平衡出片的真实和美? 七八分像，两三分美。我们在定写实人像的业务方向时，提到真、像、美，这三个方向，一个是无 AI 感，然后能够尽可能像我，但要比我美。不管是美颜相机，还是每一代的拍摄产品，这算是常识

3. facechain

FaceChain人物写真生成软件，AI在线生成人物写真照

功能近似“秒鸭相机”？从代码层面一探究竟阿里达摩院 FaceChain

阿里出品，优点: 分成两个Lora，离线训练的风格Lora和需要在线训练ID Lora模型。生成的照片与原始照片非常相似，可以轻松分辨出同一张脸。这款应用实际上是一个换脸软件，它将原始人物的脸换成了指定的面孔。与其他换脸软件不同的是，它可以生成指定风格的图片。

缺点训练时间长(数十分钟级)、推理时间长（数分钟级）、显存要求高(20G+)、GPU利用率有待提升，界面复杂，同时依赖翻墙和国内网络，下载体验差;不能处理风格图片，只能用于写真

个人写真模型的能力来源于Stable Diffusion模型的文生图功能，输入一段文本或一系列提示词，输出对应的图像。考虑影响个人写真生成效果的主要因素：写真风格信息，以及用户人物信息。为此分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。个人写真模型的能力分为训练与推断两个阶段，训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据，得到人脸LoRA模型；推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像

4. EasyPhoto:高质量SDWebui艺术照插件

视频教程: 8张照片训练个人LoRA，一分钱不花打造“AI写真”

EasyPhoto 人像训练与生成原理详解

5. PhotoVerse

6. 无需Lora炼丹也能保持同一人物？ControlNet新功能Refrece Only测评

参考模式这项新功能需要我们将插件更新到1.1.153版本及以上

只在controlnet中上传一张狗狗的图片，引导词也非常简练，仅仅是 "a dog running on grassland, best quality, ..."，然后就得到了主体相似、风格也相似，但是动作符合引导描述的图像，效果可以说非常惊艳

如果能够省去lora训练的成本确实很有诱惑，毕竟训练lora需要很好的显卡还要大量时间处理图片

参考模式可以将给定的一张图作为生成图的参照物，通过相对简单的引导词即可用参考图的内容生成到新图中
相比controlnet草稿模式，参考模式拥有很多的随机发挥的灵活性
参考模式可以大大减轻编写引导词的工作量
结合open pose或者多次迭代修正，可以实现类似lora的效果
参考模式能够比重绘更轻易的实现2d，2.5d，3d的转换

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/472038

ID保持的人像生成_stable diffusion保id

免训练

1. InstantID 小红书

2. PhotoMaker 速度慢，150秒，和训Lora比没有显著优势

3. FaceChain-FACT

4. IP-Adapter

训练lora

1. FaceStudio

2. 妙鸭相机 不开源

3. facechain

4. EasyPhoto:高质量SDWebui艺术照插件

5. PhotoVerse

6. 无需Lora炼丹也能保持同一人物？ControlNet新功能Refrece Only测评​​​​​​​

2. 妙鸭相机不开源

6. 无需Lora炼丹也能保持同一人物？ControlNet新功能Refrece Only测评