The Llama 3 Herd of Models 第8部分语音实验部分全文_llama3语音翻译

作者：从前慢现在也慢 | 2024-08-08 20:09:51

踩

llama3语音翻译

第7部分，视觉实验

8 Speech Experiments

我们进行了实验来研究将语音功能集成到Llama 3中的组合方法，类似于我们用于视觉识别的方法。在输入端，一个编码器，连同一个适配器，被并入处理语音信号。在Llama 3中，我们利用系统提示符(文本)来实现不同的语音理解操作模式。如果没有提供系统提示，则该模型作为通用的语音对话模型，可以以与纯文本版本Llama 3一致的方式有效地响应用户的语音。引入对话历史作为提示前缀，提升多轮对话体验。我们还试验了能够使用Llama 3进行自动语音识别(ASR)和自动语音翻译(AST)的系统提示。Llama 3的语音接口支持多达34种语言它还允许文本和语音的交错输入，使该模型能够解决高级音频理解任务。

我们还实验了一种语音生成方法，其中我们实现了一个流式文本到语音(TTS)系统，该系统在语言模型解码期间实时生成语音波形。我们基于专有的TTS系统为Llama 3设计了语音生成器，并且没有对语音生成的语言模型进行微调。相反，我们专注于通过在推理时利用Llama 3嵌入来提高语音合成延迟、准确性和自然性。语音接口如图28和29所示。

8.1 Data

8.1.1 Speech Understanding

训练数据可以分为两类。预训练数据包含大量未标记语音，用于自监督方式初始化语音编码器。所述监督微调数据包括语音识别、语音翻译和语音对话数据;当与大型语言模型集成时，这些数据用于解锁特定的能力。

预训练的数据。为了预训练语音编码器，我们策划了一个包含大量语言的大约1500万小时语音记录的数据集。我们使用语音活动检测(VAD)模型过滤音频数据，并选择VAD阈值大于0.7的音频样本进行预训练。在语音预训练数据中，我们也注重保证PII的不存在。我们使用Presidio Analyzer来识别此类PII。

语音识别和翻译数据。我们的ASR训练数据包含23万小时的人工转录语音记录，涵盖34种语言。我们的AST训练数据包含两个方向的90K小时的翻译:从33种语言到英语和从英语到33种语言。该数据包含使用NLLB工具包生成的监督数据和合成数据(NLLB Team et al, 2022)。合成AST数据的使用使我们能够提高低资源语言的模型质量。我们数据中的语音片段的最长长度为60秒。

口语对话数据。为了调整语音适配器&#x

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/949705