[论文阅读] Deep Video Portraits

作者：weixin_40725706 | 2024-02-20 05:26:57

踩

deep video portraits

一篇来自SIGGRAPH 2018的文章，后面该组在SIGGRAPH 2019上发了一篇后续文章，Neural Style-Preserving Visual Dubbing，两篇文章看视频展示的效果都非常好，值得好好学习一波。

一．摘要

背景：合成和编辑视频肖像（即构成人的头部和上半身的视频）是计算机图形学中的一个重要问题，在视频编辑和电影后期制作，虚拟现实和远程呈现等方面有许多的应用

思路启发来源：最近人脸面部重现有许多工作，但是大部分工作只有面部表情可以修改的很真实，不能完整的修改3D头部姿势，包括上半身和背景。因此，在3D头部控制下，合成完整的肖像视频是更具有挑战性的工作。

本文的创新点：1. 提出了一个可以将粗糙的面部模型转换到真实的人脸视频输出的网络。

2. 提出了一种时空编码用于视频合成，可以编码脸部的几何形状，反射率和运动以及视线和眨眼。

效果：将完整的3D头部位置、头部旋转、面部表情以及眼部细节从源参与者转移到目标参与者上，并且可以交互的自由重组源和目标参数实现高保真视觉配音。

二．介绍：我们方法通过迁移源参与者的头部姿势，面部表情和眼睛动作来提供对目标参与者头部的完全控制，同时保留目标的身份和外观。首先，使用SOT的单目人脸重构方法（使用参数化人脸和照明模型）跟踪源和目标参与者，由此得到低的维参数向量序列，表示每个视频帧中参与者的身份，头部姿势，表情，视线和场景照明。接下来，根据修改后的参数生成目标参与者的新合成渲染。除了正常的色彩渲染外，还渲染对应图(correspondence maps )和眼睛凝视图像( eye gaze images)。为了获得时间上连续的结果，网络输入时空量。要处理完整的视频，以滑动窗口的方式输入时空量，然后通过从输出帧中组合初始视频来得到完整视频。

三.结构：首先基于analysis-by-synthesis最大模型的合成渲染和输入之间的一致性，重建人脸(具体参数含义见原文)：

接下来，获取目标序列每一帧修改后的参数向量（修改了目标参与者的头部姿势，表情和视线）。对于滑动窗口（）中的每一帧获得三种不同的条件输入: 彩色渲染，对应图像和视线图像(color rendering, correspondence image and eye gaze image)

网络由一个一个space-time transformation network T和一个discriminator D组成，T输入一个W×H×9Nw的张量，输出一个目标人物的真实图像。T网络由两部分组成，一个编码器用于计算低维的潜在表示(latent representation),解码器用于生成图片。为了保证生成图片的质量，网络也用了一些常见的策略，包括跳跃链接(skip connection)，和级联细化策略(cascaded refinement strategy)。具体的网络结构见于下图：

目标函数和损失函数，

，

全部流程框图如下：

四.实验：

文章里做了Reenactment under full head control, Facial Reenactment and Video Dubbing, Interactive Editing of Video Portraits 的实验，效果从文中展示的来看效果非常好。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/118638