国内首个可调用API的视频模型，CogVideoX有多能打?

作者：weixin_40725706 | 2024-08-21 05:39:01

踩

cogvideox

技术原理

CogVideoX融合了文本、时间、空间三维度，参考Sora算法设计，为DiT架构，相比前代CogVideo推理速度提升6倍，理论上6秒视频生成仅需30秒。

深入CogVideoX的原理，得从智谱多模态技术布局讲起。2021年，智谱在NeurIPS’21上发表了文生图大模型CogView，奠定多模态系列基础。2022年，智谱在CogView基础上提出并开源文生视频模型CogVideo，被多家巨头引用。

CogVideo基于CogView2，采用Diffusion Transformer模型架构（DiT），它通过引入噪声并训练神经网络来逆转噪声增加的过程，结合Transformer模型，实现图像或视频的生成与变换。这个过程涉及数据预处理、噪声引入、模型训练以及最终的图像或视频生成。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/1010331