当前位置:   article > 正文

火爆全网!一张照片,为深度学习巨头们定制人像!一系列超炫酷玩法!

instantid

来源:机器之心

作者:InstantX 团队

5ae337ff28a196d466b9da1b904910bd.png

主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等,但这类方案因为需要更新整个网络或较长时间的定制化训练,往往无法很有效地兼容社区已有的模型,并无法在真实场景中快速且低成本应用。而目前基于单张图片特征进行嵌入的方法(FaceStudio、PhotoMaker、IP-Adapter),要么需要对文生图模型的全参数训练或 PEFT 微调,影响原本模型的泛化性能,缺乏与社区预训练模型的兼容性,要么无法保持高保真度。

为了解决这些问题,来自 InstantX 团队的研究人员提出了 InstantID,该模型不训练文生图模型的 UNet 部分,仅训练可插拔模块,在推理过程中无需 test-time tuning,在几乎不影响文本控制能力的情况下,实现高保真 ID 保持。

c4e418a58cd71ad11cc424a64e705e35.png

  • 论文标题:InstantID: Zero-shot Identity-Preserving Generation in Seconds

  • 论文地址:https://arxiv.org/abs/2401.07519

  • 代码地址:https://github.com/InstantID/InstantID

  • 项目地址:https://instantid.github.io

InstantID 是一个高效的、轻量级、可插拔的适配器,赋予预训练的文本到图像扩散模型以 ID 保存的能力。作者通过(1)将弱对齐的 CLIP 特征替换为强语义的人脸特征;(2)人脸图像的特征在 Cross-Attention 中作为 Image Prompt 嵌入;(3)提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制,从而增强 ID 的保真度以及文本的控制力。

下图为利用 InstantID 进行风格化的结果,输入仅为最左侧的人物图像。

e0a85781b752342299059b326dd3a0b0.png

文章的主要贡献如下:

(1) InstantID 作为一种全新的 ID 保留方法,有效弥补了训练效率与 ID 保真度之间的差距。

(2)InstantID 是可插拔的,与目前社区内文生图基础模型、LoRAs、ControlNets 等完全兼容,可以零成本地在推理过程中保持人物 ID 属性。此外,InstantID 保持了良好的文本编辑能力,使 ID 能够丝滑地嵌入到各种风格当中。

(3)实验结果表明,InstantID 不仅超越目前基于单张图片特征进行嵌入的方法(IP-Adapter-FaceID),还与 ROOP、LoRAs 等方法在特定场景下不分伯仲。它卓越的性能和效率激发了其在一系列实际应用中的巨大潜力,例如新颖的视图合成、ID 插值、多 ID 和多风格合成等。

4e98cf8d6890600ec771ce7bde7cde21.jpeg

方法介绍

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时保证高保真度。上图概述了我们的方法。它包含三个关键组成部分:(1) 鲁棒的人脸表征;(2) 具有解耦功能的交叉注意力,支持 Image Prompt;(3) IdentityNet,引入额外的弱空间控制对参考面部图像的复杂特征进行编码。

1. 由于 CLIP 只提供了弱语义表征,无法在人脸等强语义场景下直接应用,考虑了人脸识别领域已经相当成熟,所以我们采用预训练的人脸编码器来提取人脸特征。在本文中,我们使用来自 insightface 提供的 antelopev2 模型来提取人脸特征。

2. 如先前方法所述,预训练的文本到图像扩散模型中的图像提示功能能够增强了文本提示,特别是对于难以用文字描述的内容,因此,我们采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制,但差别在于我们使用人脸特征,而非 CLIP 表征。

3. 引入 IdentityNet 来对人脸图像进行编码。在实现中,IdentityNet 采用与 ControlNet 一致的残差结构,从而保持原始模型的兼容性。在 IdentityNet 中,主要有两个对于原版 ControlNet 的修改:1)只使用五个面部关键点,而不是细粒度的 OpenPose 面部关键点 (两个用于眼睛,一个用于鼻子,两个用于嘴巴)用于条件输入。2)我们消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

实验结果

作者首先展示了方法的稳健性、可编辑性和兼容性,分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到,InstantID 仍然保持了较好的文本控制能力,同时与开源的 ControlNet 模型兼容。

8445eb16bcf73ffa9fe3a74d26c41b72.jpeg

同时该方法也支持多张图注入,来进一步提升效果。

8623a1e9072b9221946c17c51679f4b2.jpeg

InstantID 与目前社区内主流的三类方法进行对比。

(1)基于单图特征注入(IP-Adapter 与 PhotoMaker)。相比之下,IP-Adapter 具有可插拔性,兼容社区模型,且其 FaceID 版本的人脸保真度有明显提升,但是对于文本的控制能力出现明显退化;而近期新推出的 PhotoMaker,需要训练整个模型(虽然采用了 LoRA 的方式),风格退化问题减弱,但其人脸保真度未见明显提升,甚至不如 IP-Adapter-FaceID。而我们提出的 InstantID 兼顾了人脸保真度和文本控制能力。

e1ae094e2873028184c1007406ff3c55.png

(2)基于微调的人物 LoRAs

263abc8bb9c41f2e2c2b72b1483bd42f.jpeg

(3)非扩散模型的换脸模型 inswapper

4209fc55a77be0d6cb95fae8c16d5f75.jpeg

此外,InstantID 还支持了多视角生成、ID 插值、多 ID 生成,作为潜在应用场景。

(1)多视角生成

cb3082ca2b0586f72b9a783c1811f0f3.jpeg

(2)ID 插值

7e56b987b1c22f6dfb5dfc2638063bc8.jpeg

(3)多 ID + 多风格的生成

3f973916995fca4ec1502cb391df2af6.jpeg

衍生应用玩法

基于高性能的人像注入和编辑能力,InstantID可以支持很多衍生应用玩法

(1)快速低门槛的真人写真

f085f79f42b05e6a991d1dd241792d6a.png

(2)夸张五官人像定制

1f384f88a598b09e86e10aec8e5fecb4.png

(3)非人像混合定制

319289f42cc098e0791e0afbfe97e0be.png

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

efa99b2628fea10c8fb81d6df4e50f6a.jpeg

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/535131
推荐阅读
相关标签