赞
踩
#今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到“以假乱真”,让指定现实物体在图像中以各种方式展现
在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌、OpenAI 等都接连推出了自己的图像生成模型,如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。不过,当让一个真实的特定现实物体出现在图像中时,最先进的文本生成图像模型也很难保留其关键视觉特征,即它们缺乏模仿或再现给定参考集中主体外观的能力。
比如,对于下图中的时钟(钟面右侧有黄色数字 3),在对包含时钟外观详细描述的提示文本进行数十次迭代后,Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。
据了解,造成这一结果的主要原因是此类模型输出域的表达性有限,即便对对象进行最详细文本描述,它们也可能产生具有不同外观的实例。
论文中还提到:“想象一下自己的宠物出现在全球各著名景点或者让喜欢的包在巴黎最高档的陈列室里展出。渲染这样的想象场景需要综合特定主题(对象、动物等)的实例,让它们自然而无缝地融入到场景中,是一项具有挑战性的任务。”值得一提的是,除了能对物体真实再现外,DreamBooth 还能任意调整指定事物(如猫、墨镜)的动作和表情,也可以给它们添加滤镜、各种装饰品和换颜色等,甚至是帮它们“换脸”。在高保真度展示对象细节的同时,还能保证场景与主题之间的逼真交互。
论文题目:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
详细解读:https://www.aminer.cn/research_report/6310b0057cb68b460f11786fhttps://www.aminer.cn/research_report/6310b0057cb68b460f11786f
AMiner链接:https://www.aminer.cn/?f=cs
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。