当前位置:   article > 正文

快手 Kling 文生视频大模型_kling ai

kling ai

快手的视频生成大模型,效果非常惊艳。但是尚未未开源,商业大模型应该也不会开源。可以期待一下技术报告。

可灵大模型

总结

官网Demo的特点

  • 可以生成长达2分钟且有30fps的视频

  • 能模拟物理世界特性(Scaling Law)

  • 可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比(基于transformer的优势)

  • 中文生成效果好

  • 动作引导的视频生成效果也很好(文生视频的效果都那么好,这个任务的效果当然会不错)

官网中提到的技术

  • 采用3D时空联合注意力机制(时空patch间的注意力?不断变换时间和空间维度的注意力?还是将时间空间维度拍平过后做注意力?)

  • Diffusion Transformer 的架构

  • 基于自研3D VAE(和Vidu一样。传统的视频生成都是使用的2D VAE,显然3D VAE才是正确的方案!)

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号