赞
踩
生成个人写真需要的信息包括风格信息和人物信息
文生图模型Stable Diffusion结构
AutoEncoder(左):像素空间和潜空间的相互转换,潜空间维度更低,节省计算量,提高模型稳定性
TextEncoder(右):编码prompt,通过cross-attention将prompt注入去噪过程
Denoising U-Net(中):扩散模型的反向去噪过程,得到output的潜空间表示
文生图
input:文本(text)或提示词(prompt)
output:包含文本内容的图像
轻量级微调模型loRA(Low-Rank Adaption)结构
通过loRA结构实现原始训练(通用图像的文生图任务)的模型适用到下游任务(特定风格/人物的文生图任务)中
模型loRA结构训练思路
分为训练阶段和推理阶段
训练阶段
input:用户上传的图像
output:人脸LoRA模型
推理阶段
input:用户输入的prompts
output:个人写真图像
人脸图像预处理
集成ModelScope中多个模型 人脸检测关键点模型(解决人脸歪斜的问题)、人体解析(提取人脸mask)、人像美肤、人脸关键点置信度模型(筛选模型)
训练人脸LoRA模型
使用modelscope中的人脸属性模型结合标签后处理,改善文本标注模型生成标签的质量
使用文生图模型生成候选图
再后处理和筛选阶段使用modelscope中的人脸质量模型、图像人脸融合模型和人脸识别模型得到更稳定的结果
使用夜景港风生成的写真图片
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。