赞
踩
论文:GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation
代码:https://genefaceplusplus.github.io/ [未开源]
出处:浙大 | 字节
时间:2023.10
论文:GENEFACE: GENERALIZED AND HIGH-FIDELITY AUDIO-DRIVEN 3D TALKING FACE SYNTHESIS
代码:https://github.com/yerfor/GeneFace
出处:ICLR2023 | 浙大、字节
时间:2023.01
talking face 生成任务期望能够实现对于任意的输入音频生成高质量高保真的说话视频
最近,NeRF 在这个领域受到了很大的关注,其只需要几分钟的训练视频,就可以渲染出高保真的 3D 说话视频
但是,基于 NeRF 的方法有以下几个挑战:
所以,GeneFace++ 做出了如下改进:
有了这些改进,GeneFace++ 成为首个实现稳定且实时的具有泛化音频-唇形同步功能的说话脸部生成的基于 NeRF 的方法
在唇部同步运动预测中,主要有两个挑战:
第一个挑战是所谓的一对多映射问题,这意味着同样的输入音频可能有几个合理的对应面部运动。早期的工作 [49, 47, 6] 直接使用回归损失(例如,L2)学习确定性模型,并因此导致过度平滑的唇部结果。Wav2Lip [30] 第一次利用判别同步专家实现更为清晰和准确的唇部运动,后续工作[48, 45, 22, 19, 34]也采用了这种方法。MemFace[36]引入音频到运动中的记忆检索以缓解一对多问题。
第二个挑战是在给定长时间输入音频时生成时间一致且稳定的运动序列。[24]采用自回归结构来模拟时间序列,但受限于慢速推理和误差累积。其他工作[41,12]使用并行结构(如1D卷积)与滑动窗口,这在一定程度上解决了自回归方法的不足。Transformer-s2a [7] 和 GeneFace [42] 使用前馈结构(自我注意力和卷积)来并行处理整个音频序列。这种框架具有高效率和建模长期信息能力,但在保持生成运动序列中时间连贯性和稳定性方面不太好。
动态人像合成的技术可以分为三类:
因此,GeneFace++ 使用了三部分来实现:
GeneFace++ 延续了 GeneFace 两阶段的形式,所以,直接引用了 GeneFace 的 audio-to-motion 和 motio-to-video 阶段
1、Audio-to-Motion
在该阶段,首先使用大量的 lip-reading 数据来学习一个条件 VAE 模型,以实现根据给定的语音来生成准确且具有泛化能力的 facial landmark
VAE 的 loss 如下:
为了弥补 lip-reading dataset 和 target person video 之间的 domain gap,还使用了 domain adaptative(DA) Postnet ,主要是为了将预测的 facial motion 映射到 target person domain
DA Postnet 的 loss 如下:
这两步结束后,就可以得到 input audio 的 嘴唇同步且 personalized 的 facial landmark 了
2、Motion-to-Video
在该阶段,使用 landmark-conditioned dynamic NeRF network 来渲染出人像
GeneFace++ 其实主要是为了提升 GeneFace 的效果,达到更自然的音唇同步,更鲁棒的高质量,更快的训练速度
如图 1a,GeneFace++ 有三个阶段:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。