旷野之间11 - 开源 SORA 已问世！训练您自己的 SORA 模型！

作者：我家小花儿 | 2024-07-13 11:35:57

踩

目前最接近 SORA 的开源模型是 Latte，它采用了与 SORA 相同的 Vision Transformer 架构。Vision Transformer 究竟有何独特之处？它与之前的方法有何不同？

Latte 尚未开源其文本转视频训练代码。我们复制了论文中的文本转视频训练代码，并将其提供给任何人使用，以训练他们自己的 SORA 替代模型。我们自己的训练效果如何？详细信息将在下面讨论。

01 从 3D U-Net 到 Vision Transformer

图像生成已经相当成熟，其中UNet模型结构是图像生成最常用的：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/819246