赞
踩
https://yuanxunlu.github.io/projects/LiveSpeechPortraits/
会说话的头部动画,即合成目标人物的音频同步视频帧,对于交互式应用(如数字化身、视频会议、视觉效果、虚拟现实、视频配音和计算机游戏)非常有价值。随着深度学习的最新进展,人们在这个长期存在的问题上取得了巨大的进步。然而,实现逼真且富有表现力的会说话的头部动画仍然是一个开放的挑战。人类对任何面部伪影都极为敏感,因此对所需技术的要求很高。有几个因素促成了这一挑战。首先,尝试生成嘴唇同步和个性化的面部动力学面临双重困难,部分原因是从一维音频信号映射到高维人脸运动的挑战,但也由于野生音频和目标语音空间之间的域差异。这使得该系统无法预先服务于个人的谈话习惯。其次,头部和身体的运动是逼真动画的另一个关键组成部分,与音频没有密切关系。例如,当一个人说同样的话时,他可以摇头,也可以一动不动,这取决于许多因素——他的情绪、地点或历史姿势。第三,合成目标的可控照片级真实感渲染非常简单。如今,传统的渲染引擎仍远未达到预期效果,其结果一目了然就被认为是假的。神经渲染器在照片级真实感渲染方面表现出强大的能力,但如果预测的运动远远超出训练语料库的范围,则会导致性能下降[Kim等人,2018]。最后但并非最不重要的一点是,许多交互场景(如视频会议和数字化身)要求整个系统实时运行,这对系统效率提出了很高的要求,同时又不会损害性能。
在本文中,我们提出了一种称为实时语音肖像(LSP)的深度学习体系结构,以应对这些挑战并进一步走向实际应用。我们的系统生成个性化的说话人头部动画流,包括面部表情和由音频驱动的运动动力学(头部姿势和上身运动),并允许实时真实感渲染。
首先,我们采用了自监督表征学习的思想,它在学习语义或结构表征方面显示出强大的能力,并有利于各种下游任务,以提取与说话人无关的音频特征。为了在野生音频流上实现逼真和个性化的动画,我们进一步将野生特征投影到目标特征空间,并使用目标特征重建它们。这个过程可以看作是从源到目标的域自适应。随后,我们可以学习从重建的音频特征到面部动力学的映射。
另一个重要的组成部分,有助于现实的谈话-头部动画是头部和身体的运动。为了从音频中生成个性化和时间一致的头部姿势,我们假设当前头部姿势部分与音频信息相关,部分与历史姿势相关。我们提出了一种新的自回归概率模型来学习基于这两种条件的目标人的头部姿势分布。根据估计的分布对头部姿势进行采样,并根据采样的头部姿势进一步推断上半身运动。
为了合成照片级真实感渲染,我们采用了一个基于特征映射和可编辑图像的图像到图像的转换网络。我们将采样的刚性头部姿势应用于面部动力学,并将变换后的面部关键点和上身位置投影到图像平面,生成地标图像作为中间表示。虽然我们的系统由几个模块组成,但它仍然足够紧凑,可以以30 fps以上的速度实时运行。总之,我们提出以下贡献:
从数学上讲,音频驱动的面部动画旨在从输入音频流生成一系列会说话的头部帧。在下文中,我们将回顾音频驱动的面部动画的前期工作,以及语音表征学习、头部姿势估计和面部重现的相关技术。
音频驱动的说话头动画。音频驱动的说话人头部动画是计算机图形学界一个历史悠久的跨模态研究课题。以前的方法根据它们是否旨在生成照片级真实感视频而采用两种不同的方法。在非真实照片的情况下,这些方法侧重于学习从输入波形到面部运动的映射,例如,3D顶点坐标,参考面部模型参数[Taylor等人2017]或索具参数[Zhou等人2018]。这些方法通常需要高质量的4D人脸捕捉数据,或通过艺术家干预操纵参数。在这里,我们将重点放在我们的方法所渴望的真实照片上。二十多年前,人们在这个领域进行了开创性的探索。Bregler等人[1997]建议重写视频,使用现有的视频片段创建一个新的人物对话视频。Brand[1999]提出用声音木偶从音轨生成完整的虚拟动画。这些技术大致可以分为基于视频的编辑方法和基于图像的生成方法。基于视频的编辑方法可以对目标视频进行编辑-通常合成与嘴相关的区域贴片并将其混合到目标帧中,同时保持其他区域不变[Ezzat et al.2002;Garrido et al.2015;Thies et al.2020]。最近,Thies等人[2020]提出将神经语音木偶作为语音木偶的升级。他们首先从音频序列中学习一个通用的3D人脸模型,然后通过学习特定于人的混合形状,在tar-get剪辑上对模型进行微调,在这种情况下,目标肖像的说话风格可以保留下来。最后通过神经渲染网络合成下表面。然而,这些方法有几个固有的局限性。首先,将信息长度限制为目标视频长度。为了生成更长的视频,需要进行启发式后处理以选择合适的候选帧。其次,头部姿势和上半身运动是无法控制的,因为这些动作是直接从目标视频复制的,这可能与音频轨迹冲突,并给实时应用带来障碍。值得注意的是,Suwajanakorn等人[2017]采用了重新计时计划来选择具有自然和同步头部运动的目标帧。最后但并非最不重要的一点是,这些方法依赖于成功的人脸跟踪,当人脸部分不可见或未被检测到时(例如,较低的人脸被手遮挡或在非常黑暗的环境中),这些方法往往会失败。跳过这些不好的帧会导致短暂不一致的结果。相比之下,我们的方法直接合成肖像。在不影响性能的情况下,可在训练前放下阻塞的车架。
基于图像的生成方法基于一个或多个裁剪的参考图像生成对话头部视频。这种方法避免了前面提到的缺点,但对于操作整个图像(包括面部细节、运动动力学和背景)的要求,使任务更具挑战性。随着深度学习的兴起,端到端培训【Chung等人,2017年;Wiles等人,2018年】正在成为制作视频的强大趋势。Chuang等人[2017]首次利用CNN模型,从静止图像和音频序列生成了有声人脸视频。后来,GANs经常被用来通过对抗性学习生成高保真的面部图像[Vougioukas等人,2018年、2019年;Zhou等人,2019年]。Chen等人[2019]和Zhou等人[2020]没有直接合成会说话的人脸图像,而是利用稀疏的人脸标志作为中间表示。landmark Dynamics首先通过音频到landmark模块从音频输入推导出来,然后作为图像到图像转换网络的一个条件来生成动画视频。这些方法共有的一个共同问题是,他们倾向于在训练语料库中学习平均面部动力学,而没有特定于人的谈话风格。请注意,Zhou等人[2020]从说话人嵌入向量中学习了说话人感知动力学,但仍然无法学习目标感知动力学,这可能会产生不可思议的结果。我们的方法专注于只使用一段短的目标视频(大约3分钟)捕捉特定于人的谈话动态。我们利用面部标志作为中间表示,并生成可控的头部姿势和上身运动,这使得动画视频更令人印象深刻和逼真。
语音表征学习。语音信号包含丰富的高级信息,包括内容、音色和韵律。以前的许多工作都要求在毫秒时间内准确地标注音素标签,并将其作为输入。这些标签通常被组合成一系列的标签用于编码邻域信息的双音或三音 [Fan et al. 2015]。然而,将波形转换为音素会导致信息压缩,同时容易出错的自动音素标记工具可能会降低性能。人们还发现了不同的方案,以使用手工制作的功能消除对音素的依赖[Suwajanakorn等人,2017]。最近,通过深度神经网络对这些语义和结构表示进行建模已显示出巨大的成功,并优于传统的手工特征[Devlin等人,2018;Peters等人,2018]。Thies等人[2020]利用DeepSpeech[Han-nun等人2014]网络提取语音特征。Zhou等人[2020]求助于语音转换社区[Qian等人2019]来分离语音内容和身份信息。类似地,我们的系统使用自监督学习方法[Chung and Glass 2020]来提取高级语音信息。此外,采用流形投影来提高泛化能力。
根据音频估计头部姿势。头部姿势作为真实感动画的重要组成部分,在有声头部视频中提供了丰富的信息。Greenwood等人[2018]采用双向LSTM模型从音频预测角色头部动画。Zhou等人[2020]预测说话人感知的头部运动动力学为3D面部标志性位移。他们在对抗机制中培训了转换器架构[Vaswani et al.2017],以限制长时间依赖并产生自然的头部动态。最近,Chen等人[2020a]提出了一种3D感知生成网络,用于从3秒钟的视频剪辑中学习目标感知的头部运动。与以往大多数使用确定性模型的工作不同,我们使用基于历史头部姿势和语音表示的自回归概率模型来预测当前时间戳的分布参数。头部姿势从预测的概率模型中采样。此外,我们进一步从预测的头部姿势推断出上半身的运动,这表明动画质量有了很大的提高。
基于视频的面部重现。基于视频的面部重现是另一种与音频驱动动画相关的技术。Thies等人[2015]提出了第一个使用两个RGBD摄像机的基于模型的实时再现系统。Face2Face[Thies et al.2016]仅使用RGB摄像机扩展边界。此外,Liu等人[2015]将音频和视频信息结合起来作为输入,解决了人脸被遮挡或头部姿势极端时跟踪结果容易失败的问题。Fried等人[2019]提出了一种基于文本的说话人头部编辑方法,而viseme搜索速度较慢(三个单词5分钟)。Yao等人[2021]将一个视频的视频生成时间缩短到40秒。最近,GANs在可控高保真人脸合成方面取得了巨大成功[Karras et al.2019;Wang et al.2018a,b]。通过在无监督方案中预先定义或学习的地标探索很少的镜头或甚至一次镜头面部动画方法[Siarohin等人2019;Sun等人2020;Zakharov等人2019]。大多数方法依赖于以语义图像作为输入的图像到图像机制。Kim等人[2018]通过输入参考视频生成了包括头部、嘴巴和凝视的肖像视频。Kim等人[2019]训练了一名复现的GAN来合成保留风格的视觉配音。最近,Elgharib在al.[2020]使用位置条件转换将以自我为中心的视图视频转换为面向前方的视频。与以前的方法不同,我们的方法仅从语音生成照片级真实感说话人头部动画,并实时运行。
概述。在给定任意语音流的情况下,我们的实时语音特征方法会实时生成目标人物的真实照片级说话头部动画(图2)。我们的方法包括三个阶段:深度语音表示提取、音频到人脸预测和真实感人脸渲染。第一阶段提取输入音频的语音表示(第3.1节)。表示提取器学习高级语音表示,并在未标记的语音语料库上以自我监督的方式进行训练。然后,我们将表示投影到目标人的语音空间,以提高泛化能力。第二阶段预测全运动动力学。两个精心设计的神经网络分别从语音表征预测与嘴相关的运动(第3.2节)和头部姿势(第3.3节)。与嘴相关的运动表示为稀疏的3D地标,头部姿势表示为刚性旋转和平移。考虑到头部姿势与声音信息的相关性小于与嘴相关的动作,我们采用概率自回归模型来学习以声音信息和历史姿势为条件的姿势。从训练集中采集与音频几乎没有关联的其他面部成分(例如眼睛、眉毛、鼻子等)。然后,我们根据预测的头部姿势计算上半身的运动。最后阶段使用条件图像到图像转换网络,从先前的预测和候选图像集(第3.4节)合成照片级真实感视频帧。下面,我们将详细介绍每个模块。
图2。我们的现场演讲肖像方法概述。在给定任意音频流的情况下,我们的方法实时生成目标人物的个性化和照片级真实感对话动画。首先,使用流形投影提取和重构输入音频的深层语音表示。然后,根据重建的语音表示预测与嘴相关的运动、头部姿势和上身运动。然后,我们通过投影预测的运动和其他采样的面部组件来生成条件特征映射。最后,我们将条件特征映射和候选图像集发送到图像到图像转换网络,以合成照片级真实感对话肖像。视频奥巴马®巴拉克奥巴马基金会(公共领域)。
在我们的例子中,输入信息是语音信号,它起着至关重要的作用,因为它为整个系统提供动力。如第2部分所言,人们利用深度学习方法,通常在自我监督机制下进行训练,从表面特征学习高级非特定人语音表示。这些方法极大地提高了下游任务的最先进性能,例如自动语音识别、电话分类和说话人验证[Chorowski等人,2019年;Liu等人,2020年;Oord等人,2018年]。这些方法成功的原因之一是,与人类标记数据集的有限大小相比,可以自由利用大量未标记数据。
具体而言,我们使用自回归预测编码(APC)模型[Chung and Glass 2020]来提取结构性语音表达。APC模型根据历史信息预测未来的表面特征。在我们的例子中,我们选择80维对数Mel谱图作为语音表面特征。该模型是一个标准的3层单向选通循环单元(GRU):
h
l
=
G
R
U
(
l
)
(
h
l
−
1
)
,
∀
l
∈
[
1
,
L
]
\mathbf{h}_{l}=G R U^{(l)}\left(\mathbf{h}_{l-1}\right), \forall l \in[1, L]
hl=GRU(l)(hl−1),∀l∈[1,L]
这里
h
l
∈
R
512
\mathbf{h}_{l} \in \mathbb{R}^{512}
hl∈R512是GRU中每个层的隐藏状态。最后一个GRU层中的隐藏状态是我们想要的深层语音表示。我们在训练过程中添加一个线性层来映射输出,以预测未来的对数Mel谱图,并且在测试过程中删除线性层。
不同的人拥有不同的说话风格,这被认为是个性化的风格。例如,May发音表现出较大的嘴唇运动,始终是“O”型,Ford 发音表现出较小的嘴唇运动,如耳语,Nadella 发音表现出上下嘴唇的粘连,如口齿不清。当输入语音表示远离目标语音特征空间时(例如,用男人的声音、外国语言甚至歌曲为女人制作动画),直接应用深度语音表示可能会导致较差的结果。为了提高泛化能力,我们在提取语音表示后进行流形投影。
流形投影操作的灵感来源于最近从草图中合成人脸的成功【Chen等人,2020c】,可以推广到远离人脸的草图。我们在语音表示流形上应用局部线性嵌入(LLE)假设:每个数据点及其邻域在高维流形上都是局部线性的[Roweis和Saul 2000]。
图 3. 流形投影。左:对于每个原始深度特征,我们将其投影到目标特征空间。右图:放大原始特征(黄色),
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。