赞
踩
像搭积木一样玩AI,随着模型种类的不断丰富,不同的组合会带来什么惊喜?今天和大家分享最近看到的一个视频工作流(工具箱)。
首先,我们先对deforum和kandinsky做一些基本的介绍:
deforum-art/deforum
Deforum是一个Python包,用于扩散动画工具包。提供了生成动画的实际生成模型、辅助数据、辅助类和实用工具等功能。
生成效果是什么样的?参考以下网友分享的视频:
Kandinsky 2.2
朝着实现照片般逼真效果前进
宇航员猫潜入充满可爱鱼的海洋,优雅,高度详细,流畅,清晰焦点,美丽,全身,电影级,8K
Kandinsky 在2023年4月4日发布了2.1,3个月后发布了2.2版本,分辨率进行了提升,达到了1024,同时,支持了ControlNet功能,还有个特别的功能,生成贴纸!
通过在提示的末尾添加“sticker”一词进行生成,然后通过分割模型去除背景。因此,可以生成任何主题的贴纸。
几种典型的任务
更大的模型,参数总量4.6亿。主要是用于训练Image Prior模型的视觉编码器替换为更大的CLIP-ViT-G,从而提高了生成图像的质量。
Kandinsky2.1 | Kandinsky 2.2 | |
类型 | 潜在扩散 | 潜在扩散 |
参数数量 | 3.3亿 | 4.6亿 |
文本编码器 | 0.6亿 | 0.6亿 |
Diffusion Mapping | 1.0亿 | 1.0亿 |
U-Net | 1.2亿 | 1.2亿 |
ViT | 0.5亿 | 1.8亿 |
MoVQ | 0.08亿 | 0.08亿 |
数据集规模 | 12亿对 | 15亿对 |
图像质量 | 良好 (768×768) | 很好 (1024×1024),不同的长宽比 |
发布日期 | 2023年4月4日 | 2023年7月12日 |
deforum + kandinsky
视频工作流
主要借助deforum的几种对镜头控制的功能,加上kandinsky的生成能力,实现了此视频工作流。
图解原理
丰富的视频镜头:
最后,我们借助MixCopilot完成了对代码仓库的阅读理解,从代码层面也理解了整个技术的实现原理:
详细的中文注解,可以加入社群领取:
除了animatediff的视频工作流,我们又多了一个可选方案。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。