赞
踩
论文网址链接:https://arxiv.org/abs/2312.04461
详情网址链接:PhotoMaker
开源代码网址链接:GitHub - TencentARC/PhotoMaker: PhotoMaker
文本到图像AI生成的最新进展在根据给定文本提示合成逼真的人类照片方面取得了显着进展。然而,现有的个性化生成方法无法同时满足高效率、有前途的身份(ID)保真度和灵活的文本可控性的要求。在这项工作中 PhotoMaker 是一种高效的个性化文本到图像生成方法,它主要将任意数量的输入 ID 图像编码为堆栈 ID 嵌入,以保存 ID 信息。这种嵌入作为统一的ID表示,不仅可以全面封装同一输入ID的特征,而且可以容纳不同ID的特征以便后续集成。这为更有趣且具有实际价值的应用铺平了道路。
此外,为了推动 PhotoMaker 的训练,他们提出了一个面向 ID 的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的滋养下,他们的 PhotoMaker 表现出了比基于测试时微调的方法更好的 ID 保存能力,同时提供了显着的速度改进、高质量的生成结果、强大的泛化能力和广泛的应用程序。
实现方法:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。