当前位置:   article > 正文

五、训练自己的语音_python 语音训练

python 语音训练

五、训练自己的语音
还是使用Bark模型,制作自己的语音格式npz文件,上传后指定该语音播放即可。
1、语音数据npz格式介绍
    提供的数据为.npz 格式,这是 Python 中用于存储数组和数据的文件格式。数据包含三个数组:semantic_prompt、coarse_prompt 和 fine_prompt。
    semantic_prompt 数组包含由 BERT 分词器从 Hugging Face 生成的一系列分词 ID。这些标记对文本输入进行编码,并用作生成音频输出的输入。这个数组的形状是 (n,),其中 n 是输入文本中的标记数。
    coarse_prompt 数组是文本到语音管道的中间输出,包含由 Facebook 的 EnCodec 编解码器的前两个代码簿生成的令牌 ID。此步骤将语义标记转换为更适合后续步骤的不同表示。这个数组的形状是 (2, m),其中 m 是经过 EnCodec Codec 转换后的 token 数量。
    fine_prompt 数组是流水线的进一步处理输出,包含来自 EnCodec 编解码器的 8 个码本。这些码本代表标记化的最后阶段,生成的标记用于生成音频输出。这个数组的形状是 (8, p),其中 p 是经过 EnCodec Codec 进一步处理后的标记数。
    总体而言,这些数组代表将文本输入转换为合成音频输出的文本到语音管道的不同阶段。semantic_prompt 数组表示输入文本,而 coarse_prompt 和 fine_prompt 分别表示标记化的中间和最后阶段。
2、在线克隆
打开这个地址:https://huggingface.co/spaces/fffiloni/clone-voice-for-bark
打开麦克风录制,并输入名称,最后下载npz文件即可;
如果要使用脚本创建,详以下步骤

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/390605
推荐阅读
相关标签
  

闽ICP备14008679号