语音驱动嘴型与面部动画生成的现状和趋势_fastspeech2语音驱动的表情口型

作者：菜鸟追梦旅行 | 2024-03-24 11:39:18

踩

fastspeech2语音驱动的表情口型

本文首发于行者AI

引言

随着硬件与虚拟现实设备的快速发展，人们说话时的面部表情、唇部动作，甚至是头部与肢体的动作都可以帮助听众理解对话内容。视觉和听觉的双模态信息融合的交互方式，不仅能提高用户对内容的理解度，还能提供一种更为准确的交互体验，提高歌唱的艺术性和观赏度。
语音驱动嘴型和面部动画生成技术可以让开发者快速构建一些基于数字人的应用，如虚拟主持人、虚拟客服和虚拟教师等。除了能提供更友好的人机交互方式之外，该技术在感知研究、声音辅助学习等方面具有重要应用价值，同时，能够在游戏和电影特效等娱乐化方面降低作品制作成本。
语音驱动嘴型与面部动画生成技术，可以让用户输入文本或语音，通过某种规则或者深度学习算法生成对应的虚拟形象的表情系数，从而完成虚拟形象的口型和面部表情的精准驱动。基于深度学习的语音驱动嘴型与面部动画生成技术具有------特点。基于深度学习的嘴型与面部动画生成算法可以自动从训练集中学习训练集中嘴型生成规则和面部表情生成规则和技巧。而基于规则的嘴型和面部表情生成算法可能存在规则复杂，多样性不足，不同的风格对应的作曲规则差距过大等缺陷。
本文将从下面几个方面介绍语音驱动的嘴型和面部生成算法：

当前主流语音驱动的嘴型和面部动画生成技术的一些缺陷。
能够解决上述缺陷的算法介绍。

1.当前语音驱动嘴型和面部动画生成技术的一些缺陷

语音驱动嘴型和面部动画生成技术需要解决以下几点缺陷：

数据少

开源的语音与3D模型同步数据集少。而自行采集数据需要通过专业的动作捕捉软件录制专业演员的表演视频，成本较高。现有的语音驱动面部动画生成技术可操作性不强，要求在训练样本比较比较充分的情况下才能获得比较好的判断效果，否则对于形变、尺度改变、光照改变等干扰，就不能很好地哦安定。

真实性

现今绝大多数研究学者仅仅关注语音驱动三维人脸口型动画，忽略了语音驱动人脸面部姿势，导致生成的虚拟人的人脸木讷呆滞，没有任何表情信息的反馈。因此很多语音驱动面部动画生成技术并不能反映人脸最真实的状况，甚至会产生恐怖谷效应。

同步性

深度学习合成的嘴型和面部动画存在合成动画不够连续，跳变现象较多，且动画流畅度和自然度欠佳的不足。语音常常比生成的视频帧超前。

2.能够解决上述缺陷的算法介绍

现有的语音驱动嘴型和面部动画生成算法可以部分解决上述缺陷，下面分别介绍几种现有的语音驱动嘴型和面部动画生成算法。

2.1数据少

2.1.1《Capture, Learning, and Synthesis of 3D Speaking Styles》 ^[1]

提供了一个独特的 4D 人脸数据集 VOCASET，它包括以 60 fps 的帧速率捕捉到的 4D 扫描（共 29 分钟），以及来自 12 名说话者的同期声。
此外本论文提出了模型 VOCA (Voice Operated Character Animation) 可使用任意语音信号作为输入（即使不是英语也可以࿰

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/302110?site

语音驱动嘴型与面部动画生成的现状和趋势_fastspeech2语音驱动的表情口型

引言

1.当前语音驱动嘴型和面部动画生成技术的一些缺陷

2.能够解决上述缺陷的算法介绍

2.1数据少

2.1.1《Capture, Learning, and Synthesis of 3D Speaking Styles》 [1]

2.1.1《Capture, Learning, and Synthesis of 3D Speaking Styles》 ^[1]