赞
踩
CogVideoX融合了文本、时间、空间三维度,参考Sora算法设计,为DiT架构,相比前代CogVideo推理速度提升6倍,理论上6秒视频生成仅需30秒。
深入CogVideoX的原理,得从智谱多模态技术布局讲起。2021年,智谱在NeurIPS’21上发表了文生图大模型CogView,奠定多模态系列基础。2022年,智谱在CogView基础上提出并开源文生视频模型CogVideo,被多家巨头引用。
CogVideo基于CogView2,采用Diffusion Transformer模型架构(DiT),它通过引入噪声并训练神经网络来逆转噪声增加的过程,结合Transformer模型,实现图像或视频的生成与变换。这个过程涉及数据预处理、噪声引入、模型训练以及最终的图像或视频生成。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。