赞
踩
题目:Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
文末附文章地址与开源代码地址
单通道、与说话人无关的语音分体方法的准确性、延迟、计算成本不足,时频描述分离问题的几个问题,如信号相位和幅度的解耦, 语音分离的时频表示的次优性, 以及计算光谱图的长延迟。
提出了一种完全卷积的时域音频分离网络 ,一个用于端到端时域语音分离的深度学习框架 Conv-TasNet ,使用线性编码器生成语音波形的表示,该表示经过优化以分离单个说话者。说话人分离是通过将一组加权函数(掩码)应用于编码器输出来实现的。然后使用线性解码器将修改后的编码器表示反转回波形。
整体网络架构如下
详细网络架构如下
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。