【语音识别】- 几个主流模型 2024年2月整理

作者：我家自动化 | 2024-03-06 21:34:37

踩

由Facebook AI Research（FAIR）于2020年提出的在语音方向里具有一定影响力的预训练模型。

论文地址：https://arxiv.org/pdf/2006.11477.pdf
项目地址：https://github.com/pytorch/fairseq

训练数据：62万小时未标注数据

结构：由FeatureEncoder和Encoder两个模块组成。
其中FeatureEncoder由7层卷机结构组成，Encoder就是Transformer。

乘积量化：把原来连续的特征空间假设是d维，拆分成G个子空间（codebook），每个子空间维度是d/G。然后分别在每个子空间里面聚类，一共获得V个中心和其中心特征。每个类别的特征用其中心特征代替。这样原来d维的连续空间，坍缩成了有限离线的空间[GxV]，

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/201645