赞
踩
目前最接近 SORA 的开源模型是 Latte,它采用了与 SORA 相同的 Vision Transformer 架构。Vision Transformer 究竟有何独特之处?它与之前的方法有何不同?
Latte 尚未开源其文本转视频训练代码。我们复制了论文中的文本转视频训练代码,并将其提供给任何人使用,以训练他们自己的 SORA 替代模型。我们自己的训练效果如何?详细信息将在下面讨论。
图像生成已经相当成熟,其中UNet模型结构是图像生成最常用的:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。