做法:微调预训练文生图模型将input images绑定到特定的identifier上。并通过添加类别特定保留损失class- specific preservation loss鼓励生成多样的(set中没有出现的)场景姿势视角等
之前的模型无法实现这种目标驱动的生成的原因是模型的表达能力有限,模型的output domain没有见过指定目标在不同场景下的生成。现有模型无法保留/识别/理解物体最核心的特征。解决方案:通过训练一个特定的embedding来绑定特定物体的特征(bind identifier with specific subjects)
模型输入
input images
text prompt。将类别实例绑定到identifier上以使用类别上的先验知识。eg:a [V] dog
为了防止language drift导致原始的dog的emb向特定的输入偏移),这里使用到class-specific preservation loss 鼓励生成的多样性。这块不太能理解