当前位置:   article > 正文

湖波荡漾、烟雾蒸腾……这些动态场景竟都是AI「脑补」出的

ai脑补图片 python

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

转自|机器之心

霍格沃兹的魔法世界,似乎离我们越来越近了。

或许是受到「霍格沃兹」魔法世界的启发,近年来,人们为了让静态的照片动起来花了不少功夫 。不过,之前的很多研究针对的都是人物,水流、烟雾等自然场景的研究相对较少。但如果翻看手机相册的话,景物照可不比人像少。

对于人类而言,一张图像通常不仅仅是像素的集合。根据我们以往对世界的观察,当拍摄图像时,我们不仅可以识别出物体、结构,还可以想象到场景的运动方式。通过这些先验,我们常常可以想象到图像的动态展示场景,例如烟囱冒烟、湖波荡漾等。

在华盛顿大学和 Facebook 的一项新研究中,研究者们提出了一个从真实场景视频中学习相同运动先验的系统,该系统可以利用一张全新的静态图像合成合理运动,并渲染出基于该图像的场景动画视频。

论文链接:https://arxiv.org/pdf/2011.15128.pdf

以下是本文所提方法的转换效果:

可见人工智能模型的脑补能力不仅限于单一场景了。AI 的创作,看起来有一点延时摄影的感觉。

方法详解

一般场景运动极其复杂,包含透视效果、遮蔽区域和瞬时状态。而在本研究中,研究者只考虑流体运动,例如可以很好地利用欧拉运动来近似的烟、水和云,特别是静态速度场中的粒子运动。

本文方法以单一静态图像为输入,生成循环播放的视频纹理。研究者首先使用一个图像到图像转换网络来合成欧拉运动场,并且该网络通过提取自在线自然场景视频素材的成对图像和运动场来训练。然后,通过欧拉积分,运动场定义输出视频序列中每个源像素的轨迹。

给定源像素在未来帧中的位置,研究者使用深度变形技术来渲染相应帧。具体而言,研究者使用一个编码器网络将输入图像转换成深度特征图,使用一种新的时序对称抛雪球算法来 warp 这些特征,并使用解码器网络来复原相应的 warped 彩色图像。最后,为了确保输出视频实现无缝循环,研究者使用了一种在深度特征空间运行的视频循环技术。

整个方法的 pipeline 如下图所示:

如图所示,给出一张输入图像 I_0,运动估计网络将预测出一个运动场 M。通过欧拉积分,M 被用来生成未来和过去的位移场 F_0→t 和 F_0→t−N,它们定义了其他所有帧 t 中的源像素位置。为了使用估计的运动让输入图像动起来,研究者首先使用了一个特征编码器网络,将图像编码为一个特征图 D_0。接下来,使用一种新的对称抛雪球技术,借助位移场对上述特征图进行变形,生成对应的变形特征图 D_t。最后,将变形的特征提供给解码器网络来创建输出视频帧 I_t。

实验效果

研究者通过比较预测运动与未来视频帧中的 ground-truth 像素位置来验证本文提出的运动表示的有效性。结果如下图 7 所示,由此可见该方法可以最忠实地重现场景的 ground-truth 运动。

然后,研究者对本文以及其他变形技术进行了评估,分别使用到了 PSNR、SSIM 和 LPIPS 三项指标。下表 1 给出了这些方法的定量比较结果,表明当提供相同运动时,本文变形技术在合成未来帧时优于其他方法。

最后,研究者们评估了循环技术的优劣。表 2 展示了用户研究的结果,新提出的方法相比其他已有方法具备优势。

除了论文和技术展示的视频,华盛顿大学的研究人员们还计划将该研究的代码公布在 GitHub 上。

随着技术的不断深入,我们正在看到人工智能展现出越来越多的创造力。未来,不知道这样的技术是否会为我们带来一些新奇的应用。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目31讲

在「小白学视觉」公众号后台回复:Python视觉实战项目31讲即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

下载4:leetcode算法开源书

在「小白学视觉」公众号后台回复:leetcode即可下载。每题都 runtime beats 100% 的开源好书,你值得拥有!


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/350154
推荐阅读
相关标签
  

闽ICP备14008679号