赞
踩
第7部分,视觉实验
我们进行了实验来研究将语音功能集成到Llama 3中的组合方法,类似于我们用于视觉识别的方法。在输入端,一个编码器,连同一个适配器,被并入处理语音信号。在Llama 3中,我们利用系统提示符(文本)来实现不同的语音理解操作模式。如果没有提供系统提示,则该模型作为通用的语音对话模型,可以以与纯文本版本Llama 3一致的方式有效地响应用户的语音。引入对话历史作为提示前缀,提升多轮对话体验。我们还试验了能够使用Llama 3进行自动语音识别(ASR)和自动语音翻译(AST)的系统提示。Llama 3的语音接口支持多达34种语言它还允许文本和语音的交错输入,使该模型能够解决高级音频理解任务。
我们还实验了一种语音生成方法,其中我们实现了一个流式文本到语音(TTS)系统,该系统在语言模型解码期间实时生成语音波形。我们基于专有的TTS系统为Llama 3设计了语音生成器,并且没有对语音生成的语言模型进行微调。相反,我们专注于通过在推理时利用Llama 3嵌入来提高语音合成延迟、准确性和自然性。语音接口如图28和29所示。
训练数据可以分为两类。预训练数据包含大量未标记语音,用于自监督方式初始化语音编码器。所述监督微调数据包括语音识别、语音翻译和语音对话数据;当与大型语言模型集成时,这些数据用于解锁特定的能力。
预训练的数据。为了预训练语音编码器,我们策划了一个包含大量语言的大约1500万小时语音记录的数据集。我们使用语音活动检测(VAD)模型过滤音频数据,并选择VAD阈值大于0.7的音频样本进行预训练。在语音预训练数据中,我们也注重保证PII的不存在。我们使用Presidio Analyzer来识别此类PII。
语音识别和翻译数据。我们的ASR训练数据包含23万小时的人工转录语音记录,涵盖34种语言。我们的AST训练数据包含两个方向的90K小时的翻译:从33种语言到英语和从英语到33种语言。该数据包含使用NLLB工具包生成的监督数据和合成数据(NLLB Team et al, 2022)。合成AST数据的使用使我们能够提高低资源语言的模型质量。我们数据中的语音片段的最长长度为60秒。
口语对话数据。为了调整语音适配器&#x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。