分享6款文字语音生成驱动虚拟数字人说话的开源项目_数字人开源项目

作者：花生_TL007 | 2024-05-04 11:05:22

踩

数字人开源项目

一、FACEGOOD的Audio2Face

github地址：github.com/FACEGOOD/FA…

FACEGOOD 对输入和输出数据做了相应的调整，声音数据对应的标签不再是模型动画的点云数据而是模型动画的 blendshape 权重。

FACEGOOD 主要完成 Audio2Face 部分，ASR、TTS 由思必驰智能机器人完成。如果你想用自己的声音，或第三方的，ASR、TTS 可以自行进行替换。当然，FACEGOOD Audio2face 部分也可根据自己的喜好进行重新训练，比如你想用自己的声音或其它类型的声音，或者不同于 FACEGOOD 使用的模型绑定作为驱动数据，都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练。那么 Audio2Face 这一步的框架是什么样呢？又如何制作自己的训练数据呢？

常规的神经网络模型训练大致可以分为三个阶段：数据采集制作、数据预处理和数据模型训练。第一阶段，数据采集制作。这里主要包含两种数据，分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音，以及一些特殊的爆破音，包含尽可能多中发音的文本。而动画数据就是，在 maya 中导入录制的声音数据后，根据自己的绑定做出符合模型面部特征的对应发音的动画；第二阶段，主要是通过 LPC 对声音数据做处理，将声音数据分割成与动画对应的帧数据，及 maya 动画帧数据的

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/534172