AI虚拟主播数字人技术实现Wav2Lip【附完整版教程】及【效果评测】_wav2lip与dinet算法上的区别

作者：Gausst松鼠会 | 2024-05-19 20:56:06

踩

wav2lip与dinet算法上的区别

前言

实现效果

本篇是关于AI主播虚拟人的Wav2Lip技术实现与评测，后续还会有其他的相关技术实现与评测。本文主要实现图片说话（如下图的蒙娜丽莎）、视频融合语音（这里的核心都是人物口型与音频中的语音唇形同步）。
主要通过将两个不相关的人的视频、音频，采用Wav2Lip技术，最终得到一个完整的视频文件，且视频的人物口型与音频内容一致。举例：小A的语音、加上小B的视频，融合为一个最终的视频；那么人小A在发出“啊”声音的时候，小B的嘴应该是张开的，以下是一张效果图），本文第五本部分是效果评测！

本文目录

第一部分：深度伪造技术概述

第二部分：Wav2lip技术概述

第三部分：使用Wav2Lip进行AI主播虚拟人的深度实践

第四部分：效果评测

第五部分：Wav2Lip完整版教程的下载

注：本案例涉及到所有内容，包括教程、图片、视频、Wav2Lip等均集中打包分享给大家，可自行复现。

正文

第一部分：深度伪造技术概述

深度伪造一词译自英文“Deepfake”(“deep learning”和“fake”的组合)。它是一种利用机器学习的子领域——深度学习创建合成媒体的技术。

图来自作者

公众所熟知知道的一个常见用例是面部交换的应用。目标面孔被交换和合并，通常在第一眼看来是无缝的，以创建一个改变的事件。

图来自作者

在高层次上，Deepfake 可以根据媒体的关注点分为 3 个方向进行更改，即伪造视觉（例如伪造图片或者视频）、伪造音频（例如伪造语音内容等）、伪造视觉及音频（即前两者的结合了，完全都是伪造）。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/594620