当前位置:   article > 正文

Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型

 ChatGPT狂飙,世界已经不是之前的样子。

新建了免费的人工智能中文站https://ai.weoknow.com

新建了收费的人工智能中文站ai人工智能工具
每天给大家更新可用的国内可用chatGPT资源

 发布在https://it.weoknow.com

https://ai.hzytsoft.cn

更多资源欢迎关注


过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。

图片

Lilian Weng

机器之心对这篇博客进行了不改变原意的编译、整理,以下是博客原文:

视频生成任务本身是图像合成的超集,因为图像就是单帧视频。视频合成的难度要大得多,原因是:

1. 视频合成还需要不同帧之间保持时间一致性,很自然,这需要将更多世界知识编码到模型之中。

2. 相比于文本或图像,收集大量高质量、高维度的视频数据要更为困难,更罔论配对的文本 - 视频数据了。

如果你想了解扩散模型在图像生成方面的应用,可参读本文作者 Lilian Weng 之前发布的博文《What are Diffusion Models?》链接:https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

从头建模视频生成

首先,我们先来看看如何从头设计和训练扩散视频模型,也就是说不使用已经预训练好的图像生成器。

参数化和采样

这里使用的变量定义与之前那篇文章稍有不同,但数学形式是一致的。令

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/506984?site
推荐阅读
相关标签