当前位置:   article > 正文

快手 Kling 文生视频大模型_kling ai

kling ai

快手的视频生成大模型,效果非常惊艳。但是尚未未开源,商业大模型应该也不会开源。可以期待一下技术报告。

可灵大模型

总结

官网Demo的特点

  • 可以生成长达2分钟且有30fps的视频

  • 能模拟物理世界特性(Scaling Law)

  • 可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比(基于transformer的优势)

  • 中文生成效果好

  • 动作引导的视频生成效果也很好(文生视频的效果都那么好,这个任务的效果当然会不错)

官网中提到的技术

  • 采用3D时空联合注意力机制(时空patch间的注意力?不断变换时间和空间维度的注意力?还是将时间空间维度拍平过后做注意力?)

  • Diffusion Transformer 的架构

  • 基于自研3D VAE(和Vidu一样。传统的视频生成都是使用的2D VAE,显然3D VAE才是正确的方案!)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/828161
推荐阅读
相关标签
  

闽ICP备14008679号