赞
踩
目前,变分贝叶斯隐马尔可夫模型再聚类(AHCVBHMM)和谱聚类(SC)的凝聚层次聚类是说话人二值化任务的两个主要聚类方法。前者在几个著名的评估数据库(例如 CallHome 97、CallHome 00、NIST RT09、Dihard 等)上具有最先进的性能,但代价是计算量很高。后者需要更少的计算资源,但不能更好地利用时间序列信息。
为了利用这两种方法的优点,我们提出了一种快速有效的二值化方法,该方法基于自适应谱聚类和VBHMM重新聚类。此外,我们采用端到端二值化方法来解决重叠语音问题。该系统在评估数据库上以更低的二值化错误率 (DER) 和实时因子 (RTF) 提高了二值化性能。
我们使用 PLDA 进行评分以获得相似度矩阵,然后使用谱聚类作为初始聚类方法对嵌入进行聚类,将 VBHMM 聚类为再聚类方法。
我们使用二值化错误率 (DER) 来评估系统。DER由三部分组成,误报率(False alarm rate, FA)、漏报率(Miss rate)和说话者错误率(Speaker error rate)。误报率和误码率主要是由于SAD的质量,说话人错误率反映了不同说话人的预测精度。计算公式如下:
此外,使用实时因子 (RTF) 来评估系统性能。它反映了算法的计算。为了更好地与之前的系统结果相比,我们使用开源二值化评分工具 1 来评估系统。
我们假设在训练集上提取的嵌入xi分布为高斯密度的混合物。每个高斯分量k都有其均值μk和协方差Σk,其先验概率πk。假设有C个这样的高斯分量。定义了一个损失Lcls来度量聚类k的假设xi和高斯混合模型的后验概率的接近程度。我们表示后验概率为
综合所有的观察结果,我们有
在实践中,我们使用xi代表yi的说话人id和C对应的类号作为分类任务。然后,在嵌入空间中,Lcls更侧重于判别能力。
然而,优化上述损失并不能保证得到的嵌入xi符合混合高斯分布。接下来[18],我们添加了一个正则化项,通过引入如下的似然函数,明确地将嵌入向高斯密度分布的混合方向驱动:
增加这种可能性可以将提取的嵌入xi驱动到其对应的高斯分布。
高斯混合损失 LGM 定义为:
其中 λ 是非负加权系数。为简单起见,设先验 πk = 1C 和 Σk 是对角协方差矩阵。LGM 然后变成:
其中删除了常数项。
为了优化损失 LGM ,使用随机梯度下降 (SGD) 算法更新所有高斯混合分量的参数,包括 μk 和 Σk,嵌入 xi。简单地像Eq.(7)中的[18]中那样使用对角协方差可能具有数值困难,因为协方差矩阵Σk需要是半正定的。本文重新定义Σk = Λk2。标准差对角矩阵Λk不是Σk,而是学习的参数。Λk 被初始化为单位矩阵。
当给出高斯分量恒等式时,应用裕度来提高学习嵌入xi的泛化能力是有益的。我们通过增加标量 1 + α 的正样本的距离 dxi,yi 来实现这一点,并选择 α 大于零。新的损失函数,大边距高斯混合,定义如下:
其中 Icond 是一个指示函数,如果满足 cond 则为 1,否则为 0。
其中 ψ(θ) 有两种定义形式。它被定义为加性余弦边距 softmax 的 cos θ - m,又名 CosAM S。第二个是 cos (θ + m) 用于加性角边距 softmax,又名 ArcAM S。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。