赞
踩
地址:罗彻斯特大学
多年来,性能评估已成为计算机视觉中必不可少的,使许多子领域取得了切实的进展。虽然会说话的头像视频生成已经成为一个新兴的研究课题,但关于这个课题的现有评估存在许多局限性。例如,大多数方法使用人类受试者(例如,通过亚马逊MTurk)来直接评估其研究主张。这种主观的评价是繁琐的,不可重复的,而且可能会阻碍新研究的发展。在这项工作中,我们提出了一个精心设计的基准,用于评估带有标准化数据集预处理策略的谈话头像视频生成。在评估方面,我们提出了新的指标,或者选择最合适的指标来评估我们认为好的头像视频的理想属性,即身份保留(identity preserving)、嘴唇同步(lip synchronization)、高视频质量(high video quality)和自然自发的运动(natural-spontaneous motion)。通过对几种最先进的说话头像生成方法进行深思熟虑的分析,我们旨在发现当前方法的优点和缺点,并为未来的工作指出有希望的方向。所有的评估代码可在以下网站获得:https://github.com/lelechen63/talkinghead-generation-survey。
关键词:说话人视频生成 视频合成 性能评估
给定一个(或几个)面部图像和一个驱动源(如一段音频讲话或一串面部特征点),说话人视频生成的任务是合成一个与驱动源相对应的、外观逼真的动画说话人视频。解决这一任务对于实现广泛的实际应用至关重要,例如用其他语言重新配音视频、视频会议的远程呈现或角色扮演视频游戏、带宽有限的视频转换和虚拟主播。另一个潜在的应用是在保护隐私的同时提高语音理解能力,或为听障人士提供辅助设备。同时,它可以有利于安全领域对抗性攻击的研究,并为监督性学习方法提供更多的训练样本。然而,由于以下三个原因,研究这样的视频合成问题被认为是具有挑战性的。首先,说话人的变形由个人内在的主体特征、外在的相机位置、头部运动和面部表情组成,这些都是非常复杂的。这种复杂性不仅来自于对脸部区域的建模,还来自于对头部运动和背景的建模。其次,明确利用参考视频中包含的视觉信息的问题仍未解决。最后,它具有挑战性,因为人们对合成视频中的细微假象和知觉特征变化的问题在基于学习的方法中很难避免。
基于图形的说话头像生成方法主要集中在依赖于主体的视频编辑,这需要一个完整的原始视频序列作为输入(Bregler等人,1997;Chang和Ezzat,2005;Liu和Ostermann等人,2011;Garrido等人,2015;Suwajanakorn等人,2017;Fried等人,2019)。例如,Suwajanakorn等人(2017)从音频信号中生成唇部区域图像,并将其与从目标人物的大型视频语料库中检索到的帧进行合成,以产生最终的视频帧。虽然所提出的方法可以合成相当逼真的视频,但它需要大量的目标人物的视频片段来组成最终的视频。最近,提出了几个音频驱动的人脸生成工作,以合成具有固定头部姿势的身份无关的面部动画(Chung等人,2019;Pumarola等人,2019;Chen等人,2018;Song等人,2018;Vougioukas等人,2019;Chen等人,2019;周等人,2019)。例如,Vougioukas等人(2019年)提出了一个时间生成对抗网络(GAN),能够从音频信号中生成具有自然面部表情的说话人视频。生成的视频不仅传达了大量的音素(phonemic, PS:本体音素不同,就是音标本就不同)信息,也传达了大量的情感表达信息。为了考虑头部运动建模,引入了特征点驱动的方法(Wang等人,2019;Zakharov等人,2019;Gu等人,2019),用面部特征点控制头部运动和面部表情。Zakharov等人(2019)甚至表明,他们的方法能够在控制头部运动的情况下,合成肖像画的逼真对话视频。在本文中,我们专注于调查和评估与身份无关的说话人头像生成方法。
自从引入身份无关的说话人生成任务以来,已经发表了相当数量的后续论文(Chung等人,2019)。大量的说话头像生成模型的变体已经被引入,包括少数镜头(few-shot)模型、递归模型和3D图形组合模型。虽然在合成视频质量方面取得了实质性的进展,但在评估说话头像方法方面花费的精力相对较少,仍然缺少对这些视频进行量化评估的接地气(grounded)的方法。随着说话人生成模型的蓬勃发展,一些评估措施已经浮出水面。一些指标试图定量评估合成的图像,而另一些指标则强调定性的方式,如用户研究或分析模型的内部结构。这两种评价方式都有其优点和局限性。例如,定性评价常常求助于对生成的图像的视觉保真度的人工检查。人们可能认为,利用ground truth区分生成的视频帧愚弄一个人(例如,通过亚马逊MTurk)可以是终极测试。然而,这样的图灵测试往往偏向于集中在数据的有限部分的模型(例如,记忆或过度拟合;低多样性),而忽略了整体的分布特征,这对于无监督学习是至关重要的。同时,这样的评估很耗时,而且可能会产生误导。定量指标虽然不那么主观,但可能无法明确说明在哪些情况下分数是有意义的,在哪些其他情况下容易产生误解,因为它们可能不直接对应于人类如何感知和判断生成的视频帧。
本文的目的是全面考察现有的关于说话头像生成模型的定量测量文献,并帮助研究人员客观地评估它们。在深入调查之前,我们列出了一个好的合成说话人视频应该满足的四个理想属性:保留被试者的原始身份,保持语义级别(semantic-level)唇同步,保持高视觉质量,以及包含自发动作。这些属性可以作为评估和比较不同说话人生成方法的元措施(meta measures)。通过对这些属性的定量评估,我们希望能回答以下问题。1)目前的评估指标的优势和局限性是什么?2)哪些指标应该被相应地优先考虑,或者是否有任何更好的评价指标可以被引入来评价说话人视频生成方法?3)这些指标对不同的测试协议(protocols)是否稳健?
虽然一些现有的指标被证明是有效的图像级别的视觉质量评价,但还有一些其他的问题,如概率标准的多样性和缺乏有感知意义的视频级别的措施,使得评估说说话人视频生成模型变得非常棘手。在本文中,我们主要通过设计或选择有关四个要求的评价指标来讨论和评估谈话头像视频生成方法。
除了评价指标外,我们还进行了周到的实验,以评价不同协议下最先进的说话人生成方法。有几个有趣的发现在以前的工作中没有被强调。当参考帧和目标帧的头部姿势不同时,目前的大多数深度生成模型表现不佳;当我们用定量指标(如SSIM,FID)评估一个说话人的生成方法时,我们应该考虑测试集的头部姿势和头部运动的分布情况;所有被选中的方法都不能为单词(如 “JOB”、"IMAGINE "和 “HAPPENS”)合成准确的唇部运动,这可能是未来研究提高语义层面视觉质量的一个好方向。
这项工作试图追踪最近的进展,并深入研究了与身份无关的人头合成方法。我们用感知指标严格评估了合成视频的质量,指出了什么是好的人头视频生成模型。本文的贡献主要有三个方面。
最终,我们希望本文能够更清晰地勾勒出当前说话人生成及其评估的全景,帮助研究人员客观地评估和改进说话人生成方法。
说话头像视频生成方法利用来自驱动模式的运动信息(如音频信号或面部标志)以及来自参考图像的外观信息来生成传达驱动模式的新图像(图1)。在这一节中,我们将讨论最近的方法对第1节中列出的每个属性的技术贡献。
blo
人们对合成视频中的任何知觉(perceptual)身份变化都很敏感,在深度生成模型中很难避免。原因是在深度卷积层(如编码和融合网络)之后,空间身份信息可能不会被完美保留。为了解决这个问题,Jamaludin等人(2019)应用跳过连接(skip connections)(图2a)来丰富参考图像的外观信息。跳过连接在合成图像特征和参考图像特征之间提供了一个high-way,这可以减轻身份编码和图像解码阶段的身份信息损失。然而,这种跳过连接结构对人们应用于哪一层很敏感。如果跳过连接应用得太早或太晚,可能会降低网络性能。
不同的参考图像可能带有不同的外观特征,与目标图像有不同程度的相关性。除了在图像解码器的最后几层丰富身份特征外,一些现有的工作(Jamaludin等人,2019;Wiles等人,2018)利用多个参考图像来缓解身份损失问题。例如,Jamaludin等人(2019)没有使用单一的参考图像来指定唯一的身份,而是将多个不同的图像按通道连接起来作为身份参考。多个参考图像的作用是增强全局外观特征,并减少非音频相关运动引起的微小变化。然而,串联操作需要对齐的脸部图像作为输入,因为它忽略了头部运动。为了生成带有头部运动的talkinghead,Wiles等人(2018)提出了一个嵌入网络,在具有不同姿势和表情的不同参考框架中聚合一个共享的表示。然后设计一个驱动网络,从嵌入的共同表征中提取像素,以产生一个生成的框架。所提出的嵌入网络提供了一个新颖的映射机制和一个类似于记忆网络的结构来提取外观特征。
最近,一些显著的现实结果已经被少数照片嵌入结构所证明(Zakharov等人,2019;Wang等人,2019;Liu等人,2019;Yoo等人,2019)。例如,Zakharov等人(2019年)嵌入参考图像来预测生成器中自适应实例规范化(AdaIN)层的参数。同样,Wang等人(2019年)预测了生成器的网络参数(Park等人2019年提出的空间自适应归一化块的尺度和偏置图)。与非少量拍摄方法相比,生成器的网络参数部分更快收敛到使用少量拍摄方法生成逼真和个性化图像的状态。
图像生成和视频生成之间的一个主要区别是相邻帧之间的平滑过渡,因为人们对视频中的任何像素抖动(如时间上的不连续和微妙的伪影)也很敏感。最近的工作(Song等人,2018;vougioukas等人,2019;Chen等人,2019;Wang等人,2019;Zhou等人,2019)对时间依赖性进行建模,以实现更平滑的面部跨时间过渡。具体来说,Song等人(2018)提出了一个在生成阶段考虑时间依赖性的循环生成器和一个在辨别阶段在视频层面判断合成视频的空间-时间辨别器。同样,Vougioukas等人(2019)提出了一个序列判别器,由空间-时间卷积和GRU组成,以提取瞬时特征并确定一个序列是否真实。
除了时间建模,另一个可以提高时间一致性的技能是图像消光功能,Wang等人(2018b)、Pumarola等人(2019)、Vondrick等人(2016)、Wang等人(2019)和Chen等人(2019)对此进行了探讨。例如,Pumarola等人(2019)通过计算最终的输出图像。
通过在生成器中应用这个图像消隐功能(图2b),参考图像的重用像素可以部分稳定视频质量。然而,如果参考帧Ir和目标帧I之间由于头部运动引起的巨大变形而出现错位,则注意力机制可能表现不佳,甚至引入伪影。我们把这个问题归结为在解决Ir和I之间的错位时,线性图像消隐函数的组成能力较差。
为了最小化错位,Wang等人(2018a)没有使用参考帧Ir,而是提出了一个顺序生成模型,在之前合成的帧
I
^
t
−
1
\hat I_{t-1}
I^t−1上采用基于流动的翘曲,使其与目标图像It对齐。因此,图像消解功能可以重新表述为。
通过在合成的前一帧上应用图像矩阵功能,他们可以缓解错位问题。然而,估计的光学流可能无法处理面部区域的小错位,这是导致帧间抖动伪影的主要因素。同时,当估计的视线流不准确时,扭曲操作可能会引入额外的伪影。
另一方面,三维图形建模由于其稳定性而被引入基于GAN的方法中(Fried等人,2019;Kim等人,2018;Yi等人,2020)。来自3D图形建模的先验纹理信息可以减轻生成器的训练,并提高时间上的一致性。
说话人生成的另一个挑战是保持视觉动态(如面部运动、唇部运动)和驱动模式(如音频信号、特征点)之间的同步,因为人们对面部运动和语音音频之间的轻微错位很敏感。Chen等人(2018)提出了视觉特征(光流)的导数和音频特征的导数之间的相关损失来解决唇部同步问题。然而,这种方法需要固定长度的音频输入,只能生成固定长度的图像帧。为了依次生成图像,Song等人(2018)提出了一个条件递归对抗网络,将图像和音频都纳入递归单元,以实现生成的视频对面部和嘴唇运动的时间依赖性,并进一步生成唇语同步的视频帧。此外,他们还设计了一个读唇辨别器来提高唇部同步的准确性。同样,Vougioukas等人(2019年)对原始视频和音频的固定长度片段提出了一个同步鉴别器,以确定它们是同步还是不同步。拟议的判别器使用双流架构计算音频和视频的嵌入,然后计算两个嵌入之间的欧几里得距离。
人们在说话时自然而然地发出一些自发的动作,如头部运动和情绪表达,这些动作包含了帮助听众理解讲话内容的非语言信息(Cassell et al 1999; Ginosar et al 2019)。虽然语音包含生成唇部动作的必要信息,但它很难被用来产生自然自发的动作。一些作品(Fan等人,2015;Jamaludin等人,2019;Song等人,2018;Chen等人,2019;Zhou等人,2019)忽略了自发表情的建模,导致脸部除了嘴部区域外大部分是静态的。为了对情绪表达进行建模,Jia等人(2014)使用神经网络来学习从情绪状态(愉悦-不愉悦、唤醒-不唤醒、支配-轻视)参数到面部表情的映射。Karras等人(2017)提出一个网络,通过推断音频信号和情绪状态的信息来合成3D顶点。Vougioukas等人(2019)提出了一个能够通过单层GRU产生时间上相干的噪声发生器。这种潜在的表征在人脸合成过程中引入了随机性,有助于眨眼和眉毛运动的产生。一些作品(Yi等人,2020;Thies等人,2016;Kim等人,2018;Averbuch等人,2017;Zhang等人,2019b)将包含目标运动的图像帧作为密集映射来指导视频生成,产生具有卷曲的头部运动和面部表情的视频帧。
最近的大规模视听数据集对说话头像视频生成的成功起到了关键作用。一方面,日益丰富的数据集捕捉到了照明条件、身份、姿势、视频质量和短语等视觉内容的多样性,从而能够为现实场景训练出强大的说话头像模型。另一方面,数据集的音频以及其他注释属性为检测和比较不同算法的性能提供了有意义的方法。在本节中,我们总结了最近发布的与语音相关的视听数据集的属性,从实验室控制的数据到野外环境的数据(表1和图3),并选择一些有代表性的数据集(表2)作为第4节的基准数据集。
几乎是但不完全是自然的头部运动往往被认为是特别令人毛骨悚然的,这种效应被称为不可思议的谷底(Ohman and Salvi ¨ 1999)。在说话的头部视频中,有各种视觉动态(如相机角度、头部运动)与语音音频不相关,因此不能从语音音频中推断出来。许多工作(Jamaludin等人,2019;Song等人,2018;Zhou等人,2019;Chen等人,2019;Vougioukas等人,2019)都专注于生成没有任何头部运动的视频。我们列出了一些具有固定头部姿势的流行数据集,并选择基准数据集来代表没有头部运动的数据集。
在GRID数据集(Cooke等人,2006年)中,有33个说话者,他们正面对着摄像头,每个人都说了1000个短句,包含从有限的字典(51个词)中随机选择的六个词。所有的句子都是以中性情绪说的,没有任何明显的头部动作。为了丰富语言信息,TCD-TIMID数据集(Harte和Gillen 2015)包括高质量的音频和视频片段,62个说话者在没有明显头部动作的情况下共读了6913个语音丰富的句子。视频片段从两个角度录制:直视和30度角。MODALITY数据集(Czyzewski等人,2017)通过使用Time-of-Flight相机提供面部深度信息,用于进一步分析。采用的相机型号是SoftKinetic DepthSense 325,它以每秒60帧的速度提供深度数据,空间分辨率为320×240像素。除了深度记录,由于语料库中的立体RGB相机记录,三维数据也可以被检索出来。LRW数据集(Chung和Zisserman 2016a)由数百个不同的说话者在野外说的500个不同的词组成。在这个数据集中,头部姿势有很大的变化——从一些视频中单个说话人直接对着摄像机说话,到小组辩论中说话人互相看着对方,导致一些视频的头部姿势很极端。由于LRW是从现实世界中收集的,并伴有真实标签(单词),所以视频很短,即只持续一秒钟,在这么短的时间内没有明显的头部运动。
我们选择GRID数据集和LRW数据集来验证本文中没有任何头部运动的说话方法,考虑了三个属性:
在现实世界的场景中,人们在说话时自然而然地发出头部动作和情绪状态,其中包含的非语言信息有助于听众理解演讲内容(Glowinski等人,2011;Ginosar等人,2019)。同时,人类的感知很容易受到真实视频中微妙的头部运动的影响。因此,我们总结了一些视频数据集,在这些视频中,说话者的头部运动适度且自然。
在CREMA-D数据集(Cao等人,2014)中,来自不同年龄段和种族的91名演员说出了12句话。与其他数据集不同的是,CREMA-D中的每个句子都是由演员以不同的情绪和强度,通过自然的头部运动多次表演出来。同样,RAVDESS数据集(Livingstone等人,2018年)和MSP-IMPROV数据集(Busso等人,2016年)涉及创造具有冲突情绪内容的刺激,通过语音和面部表情传达。Faceforensics++数据集(Rossler等人,2019)包含1000个不同记者的新闻简报视频。视频中的发言人面对镜头,头部动作适度且自然。ObamaSet(Suwajanakorn等人,2017)包含了大量的巴拉克-奥巴马总统每周的总统讲话视频,时间跨度达八年之久。他讲话时的头部姿势会发生变化,同时保持他的角色不变。由于这些特点,ObamaSet是一个合适的数据集,用于研究特定主题的高质量说话头像生成。
我们选择CREMA-D数据集来研究具有自发运动的视频(例如,自然和适度的头部运动,情绪表达),因为它包含了相对大量的主题,这使得模型的通用性得以实现。同时,CREMA-D数据集包含有广泛的情感表达的视频,从模糊的情感到原型的情感,从微妙的表达到极端的表达。为了学习特定主体的长期自发运动,我们还对ObamaSet进行了一些实验。
上面讨论的数据集要么是在实验室控制的环境中录制的视频,要么是镜头相对控制在中心并面对摄像机的视频。还有一些更具挑战性的数据集,包含有明显的头部运动或具有极端姿势的面部的视频。VoxCeleb1(Nagrani等人,2017)和VoxCeleb2(Chung等人,2018)数据集共包含超过6,000名演讲者的100万句话,从上传到YouTube的视频中提取。说话者的口音、职业、种族和年龄各不相同,范围广泛。数据集中的视频是在大量具有挑战性的视觉和听觉环境中拍摄的,在灯光、图像质量、姿势(包括轮廓)和运动模糊方面都有变化。这些视频包括对大量观众的演讲,在安静的室内演播室、室外体育场和红地毯上的采访,专业拍摄的多媒体的节选,甚至是用手持设备拍摄的自制视频。数据集中的音频片段因背景喋喋不休、笑声、重叠的讲话和不同的房间声学而有所退化。LRS3-TED数据集(Afouras等人,2018b)是一个用于视听语音识别任务的大规模数据集,它包含字幕和音频信号之间的字级对齐。MELD数据集(Poria等人,2018)包含来自电视剧《朋友》中1433段对话的约13000个语料,这些语料都有情感和情绪标签的注释。
为了用 "野生 "视频来检验说话头像的生成方法,我们选择VoxCeleb2和LRS3-TED作为我们的基准数据集,因为有以下两个特性。
表1列出了许多现有的数据集,我们选择了六个数据集作为我们的基准数据集,它们可以分为4类(表2)。然而,这些数据集没有经过校准(例如,缩放、裁剪、脸部追踪器和头部位置)。LRW、VoxCeleb2和LRS3-TED是通过使用Nagrani等人(2017)提出的人脸检测器和跟踪器,用某些协议进行预处理的视频。这种预处理方法并不公开,导致的问题是,由于缺乏预处理,在这些数据集上训练的生成模型可能无法生成这些数据集以外的样本的视频。在本节中,我们介绍了一个统一的预处理协议,这样在一个数据集上训练的生成模型就可以很容易地转移到数据集以外的测试视频上。该pipeline的关键阶段是:
最近的大多数视听数据集都利用了从野生资源中收集的大量视频数据,包括新闻、采访、会谈等。例如,VoxCeleb2、LRS3、LRW和ObamaSet分别从YouTube、TED、BBC新闻和Obamas每周讲话中收集视频。由于规模大、环境野,很难平衡不同数据集的属性。此外,一些属性可能会导致不同的生成性能。在这一节中,我们分析了几个属性在不同数据集上的分布,并提供了一些以前的论文没有涉及的数据集的信息。
头部姿势。头部姿势是说话头像视频的基本属性之一。然而,以前的大多数工作只考虑具有固定正面头部姿势的面部动画(Chung等人,2019;Song等人,2018)。最近的作品开始通过依靠稀疏映射(Zakharov等人,2019年;Wang等人,2019年)、密集映射(Siarohin等人,2019b)或从短视频剪辑中建模(Yi等人,2020年)。此外,他们在不同的数据集上评估其性能,因此很难比较其性能。为了更好地了解每个基准数据集在头部姿势方面的难度,我们绘制了头部姿势的欧拉角分布。具体来说,我们使用Bulat和Tzimiropoulos(2017)提出的工具从每个视频帧中提取三维面部特征点。此外,我们通过应用旋转和平移将提取的三维特征点与典型的三维特征点进行注册(register?)。我们将旋转转移到欧拉角,并在图4的前三行显示了整体头部姿势直方图。根据分布图,很明显,人们通常沿着Yaw轴移动他们的头。与其他数据集相比,LRS3-TED和VoxCeleb2包含相对较大的头部运动。由于头部在滚轴和俯仰轴上的运动并不明显,我们在本文中省略了它们,将头部运动简化为沿偏航轴的旋转。
头部运动。在现实世界的场景中,人们在说话时经常发出自然的头部运动。正如Yi等人(2020)所提到的,用头部运动合成说话的视频比用固定的头部姿势合成视频要困难得多。
这种头部运动估计只能估计短视频片段中的头部运动(例如,少于20秒)。我们在图4的最后一行绘制了不同数据集的头部运动分布直方图,我们可以发现LRS3-TED和VoxCeleb2包含更多的头部运动。
评估合成视频的视觉质量和自然度,特别是关于人脸的,是一个挑战。记得在第2节中,我们讨论了评价说话头像生成算法的四个标准:保持身份、视觉质量、嘴唇同步和自然、自发运动。在本节中,我们将讨论有关这四个标准的相关评价和基准。首先,我们提供了几个评价指标,以获取说话人视频的四个理想属性,然后评价一个给定的措施或一个措施系列是否能够获取这些属性。然后,如果现有的措施不能判断这些属性,我们将引入新的评价指标。
在现实世界的场景中,人类的感知对真实视频中细微的外观变化很敏感。图5显示了由我们的基线模型合成的一个例子结果,随着头部姿势的变化,身份也在不断变化。为了评估身份保护性能,Jamaludin等人(2019)使用预先训练好的VGG人脸分类网络(VGGFaceNet,Parkhi等人,2015)来测量身份距离,因为它是用三倍损失(triplet loss)训练的,所以使用生成的视频帧和ground truth的嵌入距离。Zakharov等人(2019)采用了ArcFace分类网络(Deng等人,2019)。具体来说,他们使用最先进的人脸识别网络(ArcFace,Deng等人,2019)在潜空间中获得嵌入向量。ArcFace是用弧形损失(arc loss)来训练的,弧形损失由两部分组成——Softmax损失和加法角差(additive angular margin)。然后他们计算两个向量的余弦距离,用于测量身份不匹配。
为了比较这两种不同的嵌入方法,我们使用t-SNE(Maaten和Hinton,2008)来可视化从VoxCeleb2中抽出的视频帧的特征向量(见图6)。具体来说,我们从30个身份中随机抽取150个视频(每个身份有5个不同的视频)。虽然每组5个视频中的身份是相同的,但这些视频中的发型、闪电、年龄、背景、视频质量和头部姿势是不同的,因为这些视频是在不同时间和不同条件下录制的。在每个视频中,我们随机抽出5个帧,总共有750张图像。从tSNE图中,我们发现ArcFace(图6a)与VGGFaceNet(图6b)相比,对噪声(如发型、灯光和视频质量)更加稳健。我们将此归功于Deng等人(2019)提出的加法角度边缘损失(ArcFace),因为它同时增强了类内的紧凑性和类间的差异。基于ArcFace具有更好的类间差异能力的观察,我们使用ArcSim——由ArcFace提取的两个图像特征之间的余弦距离来衡量两个图像之间的身份相似度。
在说话的头部视频帧中,虽然有典型的由面部表情引起的变形(例如,说话、情绪表达、自然的头部运动),但还有其他的变形存在。例如,由于方法本身造成的伪影(artifacts?)(例如,对模式塌陷是不可知(agnostic)的)。因此,一个理想的逼真度测量应该对这些面部变形不发生变化,但对伪影敏感。例如,如果一个合成的说话头像帧产生了不同的面部表情或头部运动,其得分不应该有太大变化。
重构损失(Reconstruction loss)可以稳定对抗性训练,而且它被广泛用于说话人生成。因此,使用在测试集上计算的重建误差指标(例如,平均平方误差)来评估合成图像是很自然的。然而,重建误差指标对合成帧和ground truth之间的错位很敏感,由于野生视频中的一些嘈杂运动,这在说话头像视频生成任务中很难避免。如果存在相应的ground truth帧,我们可以使用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)来获取合成图像的质量。然而,这些指标忽略了人类图像感知的特点。SSIM(Wang等人,2004年)是一个很有特色的指标,用来衡量感知的相似性,目的是排除图像中对人的感知不重要的方面。它使用三种属性——对比度、亮度和结构,对合成图像和ground truth中的相应像素及其邻域进行比较。
然而,这些措施可能有利于那些生成外观良好但多样性较低的图像的方法。Salimans等人(2016)提出的Inception score(IS)与合成图像的视觉质量和多样性表现出合理的相关性。而最近,Heusel等人(2017)提出了FID,它在鲁棒性、可辨别性和计算效率方面比IS表现得更好。FID使用InceptionNet(Szegedy等人,2016)的一个特定层来计算输入图像的潜在特征。如果我们将嵌入网络视为连续的多变量高斯,我们可以通过计算这两个高斯分布之间的Wasserstein-2距离得到FID得分。事实证明,FID可以测量合成数据和真实数据分布之间的距离,并且与人类的感知评价相一致。
为了测量生成过程中锐度的损失,我们使用了一种非参考测量方法——累积概率模糊检测(cumulative probability blur detection, CPBD)(Narvekar and Karam 2009)。通过将累积概率模糊检测的概念与只是明显的模糊整合到一个概率求和模型中,CPBD从感知的角度评估了图像的清晰度。
在本文中,我们选择SSIM和FID来衡量合成视频帧的图像级视觉质量,并使用CPBD来评估清晰度。
虽然存在一些突出的指标可用于确定帧/视频质量,但它们未能反映视频的其他基本方面,如视听同步。特征点距离指标(LMD)(Chen等人,2018)计算了合成视频帧和ground truth帧之间的嘴唇区域特征点的欧几里得距离。LMD估计嘴唇形状的准确性,它可以代表合成视频帧和音频信号之间的唇部同步。然而,LMD并不直接评估唇部同步,而且该评估系统与人类对唇部同步的感知方式无关。同时,LMD不能反映嘴唇运动的细节,因为当我们计算LMD时,嘴唇周围只有20个稀疏的点。Zhou等人(2019)利用视听检索协议来评估音频和视觉特征之间的接近程度。然而,检索系统可能偏向于外观(如身份或头部姿势)。他们还对嵌入的视听表征进行了词级的视听语音识别评估。他们的结果显示,他们的视听嵌入特征优于Chung和Zisserman(2016a)所提取的特征。然而,这一步是评估其网络的嵌入能力,而不是评估合成的视频质量。Chung等人(2016b)提出了一个双流的SyncNet(图7)来编码音频特征和视觉特征,然后使用对比损失(contrastive loss)来训练匹配问题。SyncNet训练中的假对只是通过随机移位得到的,所有的输出分数都与偏移有关。虽然SyncNet可以输出输入音频和视觉信号之间的正确同步误差(偏移量),但在唇部区域与音频间歇性同步的视频中(例如,一些帧与音频同步,而另一些则不同步),它可能表现不佳,这是合成视频的一个普遍问题。
当人类看一个说话的视频时,我们会无意中使用语义信息来判断音频是否与视觉同步。例如,当我们知道语言的时候,我们更容易判断音频是否与视觉同步。因此,在本文中,我们提出了一个唇语同步的评估指标——唇读相似度距离(LRSD),就像人类的感知判断一样,将语义层的唇读纳入其中。给定一个合成的视频片段
x
^
\hat x
x^和配对的ground truth视频片段
x
x
x,LRSD通过以下方式获得:
其中,φ是一个空间-时间的读唇网络。虽然近年来提出了许多唇读网络,但它们要么仅限于正面的人脸视频(Assael等人,2016年),要么公众不可用(Zhang等人,2019a;Chung和Zisserman 2016a;Chung和Zisserman 2017)。同时,大多数现有的唇语阅读方法在数据集以外的视频上表现不佳,更不用说评估合成视频和真实视频之间的相似度了。因此,我们提出了一个简单而有效的多视图唇读网络,该网络在LRS3-TED数据集上进行训练,对LRS3-TED数据集以外的任何视频都适用。我们没有采用RNN-seq2seq(Sutskever等人,2014)结构或RNN-CTC(Graves,2006)来处理唇读,而是提出了一个空间-时间感知的多视图唇读网络,它为输入视频片段输出词级标签。我们选择词级分类的原因是,与RNN-seq2seq或RNN-CTC模型相比,它在没有任何额外知识(如上下文信息)的情况下学习视觉特征,这与人类判断音频是否与视觉同步的方式一致。例如,如果我们使用像RNN-seq2seq这样强大的NLP模型,就很难确定唇读能力是来自视觉建模还是语言建模。
具体来说,我们的唇读网络(图8)由三个模块组成:空间-时间感知特征提取、空间特征细化模块和融合模块。为了捕捉嘴唇动态的时空特征,我们对输入序列采用了三维卷积。至于下面的空间特征细化模块,考虑到计算成本,采用了ResNet-18。
为了便于训练唇读网络,我们的词库是通过在LRS3-TED训练集中选择300个最频繁出现的词来获得的。值得一提的是,我们也曾尝试用ArcLoss和Triplet loss(Chechik等人,2010)使用度量学习来完善唇读网络。然而,公因子训练步骤需要很长的时间来收敛,因此我们删除了公因子学习步骤。
为了证明我们唇读网络的视觉特征提取能力,我们在图9中展示了LRS3-TED和VoxCeleb2数据集测试集的唇读结果。为了显示唇读特征的类间差异能力,我们从我们的词汇中随机选择了20个词,每个测试集中有30个视频片段,并将它们的视觉特征可视化。我们可以发现,具有相似视觉特征的词的特征比其他特征更接近。例如,'PROBLEM’和’PROBLEMS’的视觉表征几乎是重叠的,它们与’PUBLIC’很接近,因为’PUBLIC’和’PROBLEM’的视觉相似。我们还在表4中显示了唇读的准确性。我们可以发现我们的唇读网络在VoxCeleb2测试集上取得了42.46%的最高分类准确率(注意我们的分类器是在LRS3- TED数据集上训练的)。我们还报告了前5名、前10名和前20名的分类准确率,因为我们只需要计算LRSD得分的语义级唇语相似度。从t-SNE图和分类准确率来看,我们可以发现,我们的唇读网络可以从输入的视频序列中提取语义层面的空间-时间特征,而且当这些特征不属于同一个词时,提取的特征之间有明显的边缘。
研究自发表情的产生也很重要,因为它是影响我们对视频自然程度的感知的主要因素之一。Vougioukas等人(2019)计算眼睛长宽比(EAR)来检测视频中眨眼的发生,并评估不同数据集中真实视频和合成视频的眨眼分布。然而,这种眼睛眨眼分布不能反映运动是否自然和流畅。最近,光流已经成为可视化连续帧之间面部运动的常用工具(Song等人,2018;Vougioukas等人,2019)。然而,用人类视觉评估光流的运动质量是昂贵和麻烦的,有偏见的(例如,取决于主观的质量),难以重现,因此,不能完全反映模型的能力。我们通过考虑谈话头像视频生成过程中的情感表达来研究自发运动问题。为了评估合成的自发运动(情感表达)的质量,我们引入了一个新的情感相似度距离(emotion similarity distance, ESD)。我们首先训练一个空间-颞叶(spatial-temporal)卷积网络(图8),对CREMA-D训练集中的视频片段进行情绪分类。图11的上行显示了CREMA-D测试集上的视频情绪分类准确率。根据Cao等人(2014)的用户研究,人类在CREDMA-D数据集上对预期情绪的识别率分别为58.2%(纯视觉)和63.6%(音频-视觉)。我们的视频级情感分类器在没有音频的真实视频上取得了62.9%的测试准确率,这比单个人类评分者(纯视觉)要好。有趣的是,我们的分类器在有悲伤和恐惧的视频中取得了较低的分数,这与Cao等人(2014)报告的仅有视觉的人类表现一致。
然而,尽管图8中介绍的分类网络展示了其对不同情绪进行分类的能力,但该模型只在最后的线性变换后应用了Softmax层。正如Deng等人(2019)所说明的那样,从Softmax层学到的特征对于开放集识别问题来说没有足够的辨别力,这很可能会影响我们的模型对各种算法产生的视频的泛化能力。此外,带有Softmax层的模型并没有明确优化具有更高的类内相似性和类间多样性的特征嵌入。
经过公因子学习步骤的训练,模型中的情感特征会比分类网络得到的特征有更清晰的边际,我们从CREMA-D测试集的真实视频中提取情感特征,在图11第二行显示t-SNE图。我们可以发现,由我们的分类器提取的视频情感特征具有类间差异的能力,因此,具有相同标签的特征可以被分组,并有明确的边界。除了绘制生成的嵌入特征的分布图,我们还定性地测量了真实视频和生成结果之间的相似度。由于我们模型中的视频特征是在具有余弦角的超球上优化的,所以自然而然地应用余弦相似度作为情感相似度距离(ESD)。因此,在用ArcLoss训练后,我们利用ArcLoss模块前的嵌入特征来表示每个输入视频,并计算它们的相似性距离为。
ESD的结果显示在Tab. 5,我们将在下面的部分讨论它。
此外,我们也认为眨眼是一种自发的运动,与情感分类类似,我们用相同的空间-时间卷积网络骨干来评估合成的眨眼运动的质量(图8),但有单独的参数。由于眨眼运动的帧在说话头像生成数据集中没有注释,我们需要创建一个新的眨眼数据集来训练眨眼模型。我们首先在GRID数据集中根据每一帧的特征点计算眼睛的睁开率,并根据睁开率的分布将帧注释为睁眼或闭眼。然后,我们对包含睁眼和闭眼之间变化的t个帧的切片进行采样,作为眨眼运动,对只包含睁眼或闭眼的切片作为非眨眼运动(例如,图13)。眨眼模型在包含133,824个片断的眨眼数据集的子集上进行训练,以识别每个片断是否发生了眨眼运动,并在包含59,253个片断的眨眼数据集的排除测试集中进行评估。如图13所示,在训练和测试过程中,我们对每一帧的眼睛区域进行裁剪,并将其输入网络。在GRID的测试集中,原始视频的分类准确率在图13的直方图中显示为 "真实视频"条,在整个测试集中为78.71%。具体来说,对于测试集中的眨眼片,我们的模型达到了76.22%的准确率,而对于非眨眼片则达到了82.44%。
我们还用ArcLoss训练网络,并为每个切片提取眨眼特征,这与我们对情感特征所做的相同。图13显示了测试集中抽样切片的眨眼特征的t-SNE图。虽然眨眼模型存在混淆片,但眨眼特征代表了明显的类间差异能力,即非眨眼运动集群在左边,眨眼运动集群在右边。基于这一观察,我们引入了眨眼相似度距离(BSD)来更好地评估合成视频的眨眼生成质量。与ESD类似,我们计算ground truth视频的眨眼特征与合成视频的眨眼特征之间的余弦相似度(与公式8相同)。BSD的高分表示两个视频之间的眨眼运动相似,这意味着它们都进行了相似的眨眼运动或相似的非眨眼运动。BSD的结果将在第5.5节讨论。
我们在第2节中调查了最先进的与身份无关的谈话式视频生成方法,并在第3节和第4节中介绍了基准数据集和衡量标准。在这一节中,我们明确评估了各种协议下的不同方法,以显示每个模型的优势和劣势。
为了更好地理解什么构成了一个好的说话人生成模型,我们引入了一个基线模型,该模型配备了以前的工作所提出的新颖组件。我们采用Wang等人(2019)提出的最先进的视频生成模型作为骨干,并优化网络结构以提高性能。具体来说,在图像嵌入模块中,Wang等人(2019)直接从参考和目标特征点中提取注意力向量,并将其作为权重应用于聚合外观模式,目的是收集不同程度的谈话头像样本的信息。为了更好地考虑参考图像和特征点之间的联系,我们在注意力组合过程之前采用信息交换模块。此外,我们还引入了ConvGate模块来提取参考图像或特征点内的额外注意力向量,这可以减少噪声的影响,增强不同样本之间的共同信息,这些信息与身份等重要特征有关。同时,我们利用多分支非线性组合模块将扭曲的图像与生成器的原始输出结合起来,而不是使用图像消光功能,在生成器内部的特征水平上对它们进行组合。这种方法的优点是可以减少由错位引起的伪影。下面的实验部分将显示我们的新型模块所能提供的改进。
评估谈话视频中的身份保护性能是一个挑战。回顾一下,在第4.1节中,我们选择ArcSim作为评估指标,它使用ArcFace提取身份嵌入和余弦相似度来衡量合成视频帧和ground truth之间的距离。我们对所有视频帧的相似性得分进行平均。Tab. 3(ArcSim)栏显示了VoxCeleb、LRS3-TED、LRW和GRID数据集上的身份保留评估结果。我们可以发现,Chen等人(2019)和Jamaludin等人(2019)取得了比其他方法好得多的ArcSim分数。我们认为,这两种方法利用了省略头部运动建模的优势,以固定的头部姿态生成说话的头部图像,这与参考框架相同。这样,他们只需要合成视听相关的面部区域(如嘴唇区域),他们的结果将比其他方法稳定得多,因为他们不需要 "想象"由头部运动引起的其他新面部区域。
然而,生成轮廓脸比生成正面脸更具挑战性(Tran等人,2018),使用平均的ArcSim来表示性能是不公平的。为了明确研究身份保留能力与目标图像帧的头部姿势之间的相关性,我们在图14中展示了不同算法以及头部姿势的结果。我们可以发现,如果目标脸部的头部姿势更接近于正面,所有的方法都可以生成具有更好身份的图像。这是一个有趣的现象,在以前的说话头像生成论文中没有涉及。为了进一步挖掘头部姿势和身份保持性能之间的影响,我们还控制了参考图像的头部姿势。根据混淆矩阵(见图15),很明显,如果参考图像和目标图像的头部姿势接近(每个混淆矩阵的对角线),模型可以生成具有更好身份的图像。同时,这个混淆矩阵提供了另一个信息,即ArcSim指标对具有不同头部姿势的图像是稳健的。
在研究了身份保护能力和头部姿势之间的关系后,我们现在可以达成一个共识,即由于我们不知道头部姿势的分布,测试视频样本上的ArcSim平均分只能部分显示身份保护的性能。为了更好地利用ArcSim评估视频级的身份相似性,我们绘制了从VoxCeleb2数据集中取样的单个视频的视觉质量趋势。如图10所示,当一个人移动头部(黑线)时,ArcSim得分(红线)会发生明显变化。同时,我们可以发现,身份最差的合成帧通常出现在头部姿势的边界附近。例如,在图10中,ArcSim得分最低的帧是第36帧和第96帧,它们是头部姿势最右侧和最左侧的帧。受此启发,为了公平地评估ArcSim在视频层面上的表现,我们考虑了谈话的另一个属性–头颅运动。我们将视频按运动得分划分为不同的仓。图16第一行显示了不同方法和不同数据集的ArcSim结果,我们可以看到,所有的方法在头部运动度较小的视频中都取得了较好的ArcSim得分。这一有趣的发现可以为未来的研究提供两个建议。当我们为说话头像生成任务组成测试集时,我们应该考虑头部运动的平衡;目前的说话头像视频生成方法有很大的改进空间,特别是在生成头部运动较大的视频时。
回顾第4.2节的讨论,我们选择SSIM和FID来衡量生成的视频帧与ground truth帧相比的误差和质量。4.2节的讨论,我们选择SSIM和FID来测量生成的视频帧的感知误差和质量,与ground truth帧相比,它能更好地模仿人类的感知。选择CPBD是为了根据合成的视频帧中存在的边缘来确定模糊度。表3显示了不同数据集的结果。3显示了不同数据集和方法的结果。从CPBD中,我们观察到光测L1的损失会降低合成视频帧的清晰度(例如,Jamaludin等人,2019年;Chen等人,2019年)。由于一些方法省略了头部运动建模并生成静态的说话人(Chen等人,2019年;Jamaludin等人,2019年),这些方法的SSIM和FID得分比其他考虑头部运动的方法低得多。
如果我们看一下图10中的SSIM(绿线)和FID(黄线),我们可以发现,当有明显的头部运动时,合成帧的视觉质量会有波动。基于这一观察,我们按头部运动得分对视频进行分组,并在图16的第二行绘制出视觉质量评估结果与头部运动分值的关系。从图中,我们可以得到与图10类似的发现:所有的方法在头部运动较大的视频中都有较差的视觉质量表现(SSIM和FID分数),合成视频的清晰度不受头部运动的影响。
为了研究合成视频帧的视觉质量与头部姿势之间的相关性,我们在VoxCeleb2数据集上绘制了SSIM、CPBD和FID与参考图像和目标图像的头部姿势的混淆矩阵(图17)。如图17第二行所示,CPBD得分与头部姿势之间没有明显的相关性,这与CPBD的定义是一致的,因为锐度是由算法(如损失函数、网络结构)而不是数据决定的。例如,Wang等人(2019)和基线在CPBD方面取得了比Zakharov等人(2019)更好的表现,因为他们的生成器结构要复杂得多(如SPADE块)。如果我们看一下FID和SSIM(第一行和第三行),很明显,如果参考图像和目标图像的头部姿势接近(每个混淆矩阵的对角线),所有的方法都可以生成具有更好视觉质量的图像。
我们使用LRSD(第4.3节)来评估合成视频的语义水平质量。回顾一下,我们的唇语网络是在LRS3-TED训练集上训练的,对LRS3-TED数据集以外的视频也有效。因此,我们对LRS3-TED和VoxCeleb2测试集的视频进行语义层面的质量评估。表4显示了唇读的准确性和LRSD的分数。首先,如果我们看一下LRS3-TED和VoxCeleb2测试集的真实视频的唇读准确率,我们可以发现我们的唇读网络在LRS3-TED和VoxCeleb2测试集上分别达到了72.62%、42.46%的最高准确率,这表明了我们唇读网络的通用性。由于我们想通过比较合成视频和真实视频之间的相似度距离来比较合成视频的语义层面的质量,我们也关心前5名、前10名和前20名的准确率。然后,我们可以看一下合成视频的读唇语准确率。所有方法产生的合成视频的前1名读唇准确率都低得令人难以置信,这表明这些方法不能为词级读唇分类产生准确的唇部动作。然而,当我们把容忍度提高到前5名、前10名和前20名时,不同方法之间的差距越来越大,这意味着那些合成视频仍然可以反映其语义层面的含义。接下来,从唇读准确率和LRSD得分来看,我们可以看到LRSD的表现与唇读准确率几乎一致(大多数唇读准确率较高的方法都能获得较好的LRSD得分)。我们还计算了合成视频和配对的ground truth之间的读唇特征的L2距离,从中我们可以得到类似的结论。
为了了解哪些词更难合成,我们在图20中绘制了假视频的读唇准确度与单词标签的对比。我们可以看到,在VoxCeleb2和LRS3-TED测试集中,所有的模型在合成某些单词(例如 “JOB”、“POWER”、"IMAGINE "和 “PUBLIC”)的唇部运动方面表现不佳。这些词中可能有一些目前的运动建模方法无法处理的共同特征,这可能是提高合成视频的语义层面性能的一个好方向。
我们在CREMA-D测试集上使用提议的情感相似度距离(ESD,见第4.4节)来评估合成的说话人视频的情感状态。图11第一行显示了对不同类型视频的情感分类准确率。紫色、蓝色、红色、橙色和绿色条分别是在真实视频、Vougioukas等人(2019)合成的假视频、Wiles等人(2018)的假视频、Zakharov等人(2019)的假视频和我们基线模型合成的假视频上的结果。图18显示了CREMA-D测试集上不同ESD特征的t-SNE图,从中我们观察到,从基线方法、Wiles等人(2018)和Zakharov等人(2019)提取的ESD特征的组边界比从Vougioukas等人(2019)制作的合成视频中提取的ESD特征更清晰。t-SNE的可视化与图18第一行的分类结果一致,情感分类器在Vougioukas等人(2019)制作的合成视频上实现了最低的准确性。Tab. 5显示了ESD的定量结果,从中我们可以发现,与其他方法相比,从Wiles等人(2018)中提取的情感特征与从ground truth中提取的特征最接近。这与图11第二行所示的情感分类准确率一致,Wiles等人(2018)制作的合成视频取得了最高的分类准确率(45.3%)。综上所述,图11、图18和Tab. 5表明,我们的ESD是一个特性良好的感知相似度测量,旨在评估合成视频的情感表达能力。
我们还研究了ObamaSet(表7)上的长期运动建模,因为它包含了单个主体超过14小时的录像。虽然所有被选中的方法都能从训练数据中学习一些一般的运动,但合成的运动与输入条件(如音频、面部标志)之间没有直接的关联。我们将此归因于这些方法中缺乏特定的模块来模拟个人的运动,从而导致合成的视频中出现一些随机的重复运动。
我们还分析了由不同方法生成的说话人视频的眨眼动作质量。在图13中,我们用直方图表示在GRID的测试集上对眨眼分类的准确性,其中粉色、青色、洋红色、灰色、绿色、天蓝色、橙色和橄榄色的条形图是指Chen等人(2018)、Jamaludin等人(2019)、Vougioukas等人(2019)、基线、Zakharov等人(2019)、Wiles等人(2018)、Wang等人(2019)和ground truth视频具体。我们发现,基线在眨眼动作合成上取得了很高的性能,其准确度与ground truth眨眼动作大致相当。此外,比较特征点驱动的方法(baseline,Zakharov等人2019年,Wiles等人2018年),Wang等人2019年)和音频驱动的方法(Chen等人(2018年),Jamaludin等人(2019年),Vougioukas等人2019年),我们可以发现,前者在整体测试集上往往有更高的准确性。这个结果是合理的,因为特征点提供了眼睛运动的直接线索。然而,特征点中也存在噪音。我们观察到,即使对于一些眼睛区域没有变化的帧,在相关的特征点中也有明显不同的开放率。受这些噪声的误导,特征点驱动的方法也可能导致错误的眨眼运动(例如,Zakharov等人,2019年,图13)。此外,我们还计算了每种方法的BSD得分,并在Tab. 6. 同样,我们可以发现,特征点驱动的方法总是能合成与ground truth说话人更相似的眨眼动作,并导致更高的BSD得分。我们还绘制了每种方法合成的视频的t-SNE图。正如预期的那样,与音频驱动的方法相比,特征点驱动的方法对不同的眨眼等级表现出更明显的聚类能力。观察四种特征点驱动方法,Zakharov等人(2019)在分离眨眼运动视频和非眨眼运动视频方面显示出瓶颈,这与分类精度和BSD的结果相同。所有这些实验都表明眨眼模型和BSD有能力评估合成视频的眨眼性能,而且结果是合理的。此外,这也可以引导我们思考GAN对特征点中的噪声的鲁棒性。
说话人生成是计算机视觉中一个重要的、具有挑战性的问题,并得到了相当的关注。由于GAN技术的显著发展,说话人生成领域有了很大的发展。作为一个关于说话人生成任务及其评价指标的全面调查,本文强调了最近的成就,为构成一个好的说话人视频提供了明确的标准,总结了现有的流行数据集和评价标准,对现有的措施进行了详细的经验和分析比较研究,并在相同条件下使用一个以上的措施对模型进行基准测试。同时,我们引入了三个具有感知意义的指标,评估合成视频的情感表达、语义层面的嘴唇同步和眨眼动作。所提出的指标与人类的感知判断一致,并且具有较低的样本和计算复杂性。随着各种结构的提出,说话人生成的性能将继续提高。同时,为这一任务寻求适当的衡量标准仍然是一个重要的开放性问题,不仅是为了公平的模型比较,也是为了理解、改进和发展说话头像动画模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。