不正经

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

男女声语音转换_语音转换技术中,如果要把男声转换为女声原理

作者：不正经 | 2024-04-10 03:35:17

赞

踩

语音转换技术中,如果要把男声转换为女声原理

男女声特点

（此部分转载自https://blog.csdn.net/u011389706/article/details/78965233）

男女声基本区别
男女声主要区别在于男女声基音频率（pitch frequency）的高低。一般女声的音调比男声的音调高，这种不同主要是反应在基音频率（pitch frequency）上。

一般女声的基音频率高于男声，常见的男女声基音频率大致分布范围如下图所示。提取基音频率比较常用的方法就是倒谱（cepstrum）。

声音信号具有短时平稳性，我们认为在10~50ms的数据长度上声音信号是平稳信号，所以可以分帧然后用平稳信号的处理方法进行处理。首先就是分帧操作（这里取40ms帧长，20ms帧移），加窗后求倒谱，根据倒谱便可以求解出基音频率。整个系统流程图如下：

GMM模型简介

GMM模型定义
在这里插入图片描述
详细内容有专门博客。

基于GMM语音转换

1.基本原理

具体推导可参考：GMM语音转换学习

在这里插入图片描述

具体实现参考sproket工具。算法具体流程如下：

在这里插入图片描述

GMM模型主要用来转换mcep参数，F0参数用一个单高斯模型转换，ap参数不变。
Global variance(GV)特征是后来针对GMM存在过平滑问题的改进。需求mcep参数方差的均值和方差。对转换后的mcep方差的分布做修正，使其更接近目标语音mcep方差的分布。

2.方法框架图
在这里插入图片描述

3.特征参数提取，利用world声码器

在这里插入图片描述

实验及分析

1.数据准备
在这里插入图片描述
2.参数设置

设置合适的F0搜索范围，能够有效减少后续转换时F0提取错误，如半F0、双F0的情况。

设置合适的归一化功率门限值，可有效去除静音帧，从而提升时间对齐准确率。（npow）
在这里插入图片描述

实验结果

在这里插入图片描述

在这里插入图片描述

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号