当前位置:   article > 正文

终于等到open Sora开源,解读open- Sora1.0文生视频模型_open-sora

open-sora


Colossal-AI团队全面开源了名为「Open-Sora 1.0」的视频生成模型,该模型采用类Sora架构,基于Diffusion Transformer (DiT) 架构设计,并扩展到视频数据领域。Open-Sora 1.0 的训练流程涵盖了从数据处理、训练细节到模型权重的全部内容,

3dcd88d04fba4b6fb6a668272a773aff.png 

并且包括三个关键阶段:

    1.    大规模图像预训练:利用已有的大规模图像数据和高质量文生图技术(如Stable Diffusion模型提供的图像 VAE),降低了视频预训练的成本。
    2.    大规模视频预训练:在第一阶段的基础上增加了时序注意力模块,通过使用大量多样性的视频数据进行训练,以增强模型对时间序列关系的学习能力和泛化能力。团队采用了PixArt-α模型的部分开源权重以及T5作为文本编码器,采用小分辨率预训练加速收敛速度。
    3.    高质量视频数据微调:针对高分辨率、高质量和更长时长的视频数据进行微调,显著提升了视频生成的质量,实现了从低分辨率向高分辨率、短时长向长时长的高效过渡。

 

为了降低复现门槛和简化数据预处理过程,Colossal-AI 团队提供了便捷的数据预处理脚本和批量视频标题生成工具,用户可以轻松下载公开视频数据集、分割视频片段并生成对应提示词。此外,他们还展示了Open-Sora 模型的实际应用效果,能够生成包括航拍海岸、瀑布景色、水下世界和星空延时摄影等多种场景的视频。

整个项目开源地址为https://github.com/hpcaitech/Open-Sora,

并且作者团队计划不断优化与更新模型,增加更多训练数据以提高视频生成质量和时长,并支持多分辨率特性,推动AI视频生成技术在多个行业中的应用。同时,他们在训练效率上也取得了显著成果,借助Colossal-AI加速系统,不仅降低了训练成本,还在视频训练过程中实现了高效的加速效果。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/429174
推荐阅读
相关标签
  

闽ICP备14008679号