赞
踩
快手的视频生成大模型,效果非常惊艳。但是尚未未开源,商业大模型应该也不会开源。可以期待一下技术报告。
官网Demo的特点
可以生成长达2分钟且有30fps的视频
能模拟物理世界特性(Scaling Law)
可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比(基于transformer的优势)
中文生成效果好
动作引导的视频生成效果也很好(文生视频的效果都那么好,这个任务的效果当然会不错)
官网中提到的技术
采用3D时空联合注意力机制(时空patch间的注意力?不断变换时间和空间维度的注意力?还是将时间空间维度拍平过后做注意力?)
Diffusion Transformer 的架构
基于自研3D VAE(和Vidu一样。传统的视频生成都是使用的2D VAE,显然3D VAE才是正确的方案!)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。