Python让AI虚拟主播接入微软Azure语音合成并精准嘴型同步_azure ai 语音和数字人唇

作者：知新_RL | 2024-03-21 04:16:25

踩

azure ai 语音和数字人唇

上一篇文字中讲了利用Python实现利用微软Azure无限免费将文本转mp3格式的音频文件并下载到本地。微软Azure TTS的优点不用多说，今天将讲如何利用Python将其接入到虚拟主播中来。

订阅专栏，我将免费向您提供具体的方案。

看过专栏其他文章的朋友，一定知道，我们使用的虚拟主播软件为Motionface，其支持一些简单好用的接口。我们先看看Motionface的效果：

我们看到了其要求是需要wav格式的音频来驱动嘴型同步,但是微软Azure语音合成为mp3格式，这时，我们需要将mp3音频文件转换成wav的音频切采样率为11025。

这个转换过程是利用ffmeg，通过python脚本调用实现。

ffmpeg -i mp3\output_1649494987952.mp3 -f wav -ac 1 -ar 16000 ./output_1649494987952.wav

开始python代码吧！


from ffmpy import FFmpeg as mpy
import os 
 
def read_folder(mp3_folder, wav_folder):
    '''
    文件夹读取函数
    :param mp3_folder:
    :param wav_folder:
    :return:
    '''
    # 遍历需要转换的MP3文件夹中的MP3文件
    for a in os.listdir(mp3_folder):
        # 创建MP3文件的绝对路径
        mp3_file = os.path.join(mp3_folder, a)
        # 调用格式转换函数
        trans_to_wav(mp3_file, wav_folder)
 
def trans_to_wav(mp3_file, wav_folder):
    '''
    格式转换格式
    :param mp3_file:
    :param wav_folder:
    :return:
    '''
    # 格式化文件
    file_fmt = os.path.basename(mp3_file).strip()
    # 获取文件格式
    file_fmt = file_fmt.split('.')[-1]
    # 校验文件格式
    if file_fmt.strip() != 'mp3':
        raise Exception('改文件不是MP3格式，请检查！')
    elif file_fmt.strip() == '':
        raise Exception('文件格式出现异常，请检查！')
    # 创建wav的文件以供转换完成后输出
    wav_file_path = os.path.join(wav_folder)
    wav_file_path = os.path.join(wav_file_path, '{}.{}'.format(
        os.path.basename(mp3_file).strip().split('.')[0], 'wav'
    ))
    # 创建转换时的命令行参数字符串
    cmder = '-f wav -ac 1 -ar 11025'
    # 创建转换器对象
    mpy_obj = mpy(executable='ffmpeg.exe',
        inputs={
            mp3_file: None
        },
        outputs={
            wav_file_path: cmder
        }
    )
    print('执行CMDER 命令：{}'.format(mpy_obj.cmd))
    mpy_obj.run()
 
if __name__ == '__main__':
    '''
    主函数入口
    '''
    # 输入MP3文件夹
    mp3_folder = input('输入MP3文件夹路径：\n')
    # 校验MP3文件夹是否存在
    if mp3_folder.strip() == '':
        raise Exception('输入空值，请检查！')
    elif mp3_folder.strip() != '':
        if os.path.exists(mp3_folder) is False:
            raise Exception('文件路径不存在')
    # 输入wav文件夹路径
    wav_folder = input('输入wav文件夹路径：\n')
    # 校验wav文件夹是否存在
    if wav_folder.strip() == '':
        raise Exception('输入空值，请检查！')
    elif wav_folder.strip() != '':
        if os.path.exists(wav_folder) is False:
            raise Exception('文件路径不存在')
    # 调用文件夹读取批量文件
    read_folder(mp3_folder, wav_folder)

接下来，我们将利用python，将wav音频文件传给motionface即可进行嘴型同步了：


import sys
import threading
import urllib
import ssl
 
from urllib.parse import urlparse
 
from scripts import watcher, webdriver
from config.helper import config
import requests
 
 
 
def sendFile(filename, filepath):
    url =   "http://192.168.3.131:8080/cgi/savewav"
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
    files = {'file': open(filepath, 'rb') }
    files1 = {
        'file':(filename,open(filepath, 'rb'), 'audio/wav')
    }
 
    data = {
            'file':filename,
            'objectName': filename,
            'fileDownloadName': filename,
        }
    upload_res = requests.post(url,
                                   data=data,
                                   files=files1)
 
 
 
if __name__ == '__main__':
    print('1')
    sendFile('rec.wav','rec.wav')

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/278362