终于等到open Sora开源，解读open- Sora1.0文生视频模型_open-sora

作者：羊村懒王 | 2024-04-15 17:41:03

踩

open-sora

Colossal-AI团队全面开源了名为「Open-Sora 1.0」的视频生成模型，该模型采用类Sora架构，基于Diffusion Transformer (DiT) 架构设计，并扩展到视频数据领域。Open-Sora 1.0 的训练流程涵盖了从数据处理、训练细节到模型权重的全部内容，

并且包括三个关键阶段：

   1.   大规模图像预训练：利用已有的大规模图像数据和高质量文生图技术（如Stable Diffusion模型提供的图像 VAE），降低了视频预训练的成本。
   2.   大规模视频预训练：在第一阶段的基础上增加了时序注意力模块，通过使用大量多样性的视频数据进行训练，以增强模型对时间序列关系的学习能力和泛化能力。团队采用了PixArt-α模型的部分开源权重以及T5作为文本编码器，采用小分辨率预训练加速收敛速度。
   3.   高质量视频数据微调：针对高分辨率、高质量和更长时长的视频数据进行微调，显著提升了视频生成的质量，实现了从低分辨率向高分辨率、短时长向长时长的高效过渡。

为了降低复现门槛和简化数据预处理过程，Colossal-AI 团队提供了便捷的数据预处理脚本和批量视频标题生成工具，用户可以轻松下载公开视频数据集、分割视频片段并生成对应提示词。此外，他们还展示了Open-Sora 模型的实际应用效果，能够生成包括航拍海岸、瀑布景色、水下世界和星空延时摄影等多种场景的视频。

整个项目开源地址为https://github.com/hpcaitech/Open-Sora，

并且作者团队计划不断优化与更新模型，增加更多训练数据以提高视频生成质量和时长，并支持多分辨率特性，推动AI视频生成技术在多个行业中的应用。同时，他们在训练效率上也取得了显著成果，借助Colossal-AI加速系统，不仅降低了训练成本，还在视频训练过程中实现了高效的加速效果。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/429174