当前位置:   article > 正文

国内首个可调用API的视频模型,CogVideoX有多能打?

cogvideox
近期,智谱AI在其Maas开放平台(bigmodel.cn)发布了视频生成大模型CogVideoX,它提供了国内首个通过API来使用的文生视频和图生视频服务!
话不多说,我们直接来看一下通过CogVideoX生成的一部短片。

技术原理

CogVideoX融合了文本、时间、空间三维度,参考Sora算法设计,为DiT架构,相比前代CogVideo推理速度提升6倍,理论上6秒视频生成仅需30秒。

深入CogVideoX的原理,得从智谱多模态技术布局讲起。2021年,智谱在NeurIPS’21上发表了文生图大模型CogView,奠定多模态系列基础。2022年,智谱在CogView基础上提出并开源文生视频模型CogVideo,被多家巨头引用。

CogVideo基于CogView2,采用Diffusion Transformer模型架构(DiT),它通过引入噪声并训练神经网络来逆转噪声增加的过程,结合Transformer模型,实现图像或视频的生成与变换。这个过程涉及数据预处理、噪声引入、模型训练以及最终的图像或视频生成。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/1010331
推荐阅读
相关标签