当前位置:   article > 正文

deforum + kandinsky = 视频工作流

kandinsky 2.2

像搭积木一样玩AI,随着模型种类的不断丰富,不同的组合会带来什么惊喜?今天和大家分享最近看到的一个视频工作流(工具箱)。

首先,我们先对deforum和kandinsky做一些基本的介绍:

deforum-art/deforum

Deforum是一个Python包,用于扩散动画工具包。提供了生成动画的实际生成模型、辅助数据、辅助类和实用工具等功能。

6e54201d32ddba67178bd76a828c2ebd.png

生成效果是什么样的?参考以下网友分享的视频:

Kandinsky 2.2

朝着实现照片般逼真效果前进

Kandinsky 2.2是一个图像生成模型,通过引入新的图像编码器CLIP-ViT-G和ControlNet机制,提供更好的图像生成和文本引导图像。

7d5550b2b3719d78f2ee03e10ca9e5b4.png

宇航员猫潜入充满可爱鱼的海洋,优雅,高度详细,流畅,清晰焦点,美丽,全身,电影级,8K

Kandinsky 在2023年4月4日发布了2.1,3个月后发布了2.2版本,分辨率进行了提升,达到了1024,同时,支持了ControlNet功能,还有个特别的功能,生成贴纸!

1830e007d9f41e24b378f2c1654f7583.png

通过在提示的末尾添加“sticker”一词进行生成,然后通过分割模型去除背景。因此,可以生成任何主题的贴纸。

d2f1e57e5603a061bd32178ab594236f.jpeg

几种典型的任务

更大的模型,参数总量4.6亿。主要是用于训练Image Prior模型的视觉编码器替换为更大的CLIP-ViT-G,从而提高了生成图像的质量。


Kandinsky2.1Kandinsky 2.2

类型

潜在扩散

潜在扩散

参数数量

3.3亿

4.6亿

文本编码器

0.6亿

0.6亿

Diffusion Mapping

1.0亿

1.0亿

U-Net

1.2亿

1.2亿

ViT

0.5亿

1.8亿

MoVQ

0.08亿

0.08亿

数据集规模

12亿对

15亿对

图像质量

良好 (768×768)

很好 (1024×1024),不同的长宽比

发布日期

2023年4月4日

2023年7月12日

deforum + kandinsky

视频工作流

主要借助deforum的几种对镜头控制的功能,加上kandinsky的生成能力,实现了此视频工作流。

be13e047090851fd0bde5f90b7e5d513.jpeg

图解原理

丰富的视频镜头:

f3f66a1d5a5c19db3fa8160f979fe136.gif

最后,我们借助MixCopilot完成了对代码仓库的阅读理解,从代码层面也理解了整个技术的实现原理:

b79d858bd68691a240e245d4b709ab35.png

详细的中文注解,可以加入社群领取:

827e1e55af06608a7961315ea2cefc82.jpeg

除了animatediff的视频工作流,我们又多了一个可选方案。

ComfyUI中文社区#文档汉化内测,全新的创作方式等你来探索!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/397490
推荐阅读
相关标签
  

闽ICP备14008679号