小米语音首席科学家与开源泰斗陆首群探讨新一代 Kaldi 与大模型

作者：Cpp五条 | 2024-05-01 18:48:35

踩

小米新一代 kaldi

2023年10月26日，中国开源软件推进联盟（COPU）主席陆首群主持会议，听取了小米集团语音首席科学家 Daniel Povey 博士介绍其所带领的新一代 Kaldi 项目的最新进展，并与他进行讨论。

与会者合影留念

后排左起：鞠东颖、宋可为、安泱、张侃、孟伟、郭理勇

前排左起：杨笑宇、Daniel Povey、陆首群、刘澎、覃左言

陆首群教授是中国开源行业泰斗，是世界闻名的开源领袖，是中国信息化的开拓者和实践者，中国互联网的创建者，同时也是中国开源运动的倡导者和推动者。近年来，他还是基于开源的深度信息技术发展和应用的研究者、评论者和推动者。他曾获国际著名的 Linux 基金会颁发的“推进开源终身成就奖”（颁奖大师致辞说：陆教授不但在中国而且在亚洲、世界为推进开源做出杰出贡献），曾获国际著名的云原生计算基金会（CNCF）“开源领袖奖”，还曾获中日韩开源推进论坛“特殊贡献奖”。

Daniel Povey 博士是全球著名的语音科学大师，IEEE Fellow，现受聘任小米集团首席语音科学家。Kaldi 自动语音识别技术是人与机器以自然语言顺畅交流的关键技术，Daniel 博士是 Kaldi 的主要开发者和维护者，被称为 Kaldi 之父。

早在2021年9月，陆主席与 Daniel 博士就进行了首次会晤，讨论了 Kaldi 作为一个语音工具包的功能和应用情况，并特别讨论了新一代 Kaldi 项目的发展计划。大模型 ChatGPT 自 2022 年 11 月问世以来，风靡全球。大模型 GPT 与 Kaldi 均担负着运用自然语言实现人机对话的功能。本次是陆主席和 Daniel 博士之间的第二次会晤，重点讨论大模型给 Kaldi 带来的挑战，以及 Daniel 博士研究的对策。

大模型 GPT 是否对新一代 Kaldi 提出了挑战？如何提升新一代 Kaldi 的智能化水平？

Daniel 博士：当前新一代 Kaldi 项目的技术路线与大模型有同有异，同的方面都采用了 Transformer 架构（这也是当前大多数人工智能模型都在采用的架构），异的方面大模型 GPT 是单一的大系统，而新一代 Kaldi 是由很多小系统协作组成的大系统。

我认为后者可能才是未来智能体的发展方向。大模型 GPT 存在的问题在于，其结构上是单一的大系统，虽然具有强大的记忆能力，但缺少把各方面信息联系在一起的能力，譬如你问大模型 GPT 现在天气如何，它就无法给出正确答案，只能编造一个答案。而包括 Kaldi 在内的未来智能体在结构上是由很多小系统协作组成的大系统，一旦发现错误或缺陷，在某个小系统上纠错完善会比较方便，减少对“健康”的整体其他部分的影响。大模型 GPT 有很多正面效应，但也存在一些负面效应，减少错误是今天大模型 GPT 需要改进的方向。

陆主席：你们新一代 Kaldi 与大模型 GPT 在研究路线上有什么区别？当前成果的产品化如何，是否已经落地？

Daniel 博士：大模型在一些任务上取得了很好的效果，但是它的训练过程需要海量的数据和算力，很多中小企业都没有足够的资源开展类似的实验。另外大模型的训练策略也很难迁移到小规模数据的任务上。

Daniel 博士接着在白板上画了一个出错率与成本的关系曲线，来解释二者的主要区别：

大模型 GPT VS. Kaldi 出错率/成本曲线图

大语言模型的成果主要落在曲线的右下角，为了取得更低的错误率，需要付出大量的成本。而新一代 Kaldi 则着眼于使整个曲线向下平移。过去一年，新一代 Kaldi 团队研发了一系列技术，包括神经网络结构优化方案和训练策略、神经网络梯度值矫正优化技术等。基于这些技术，新一代 Kaldi 在不同数据规模的语音识别任务上都取得了业界领先的效果。同时，部分技术也被用于小米大模型的训练过程中，在达到同等模型效果的前提下，可以有效节省训练成本。

关于成果的产品化，小米集团大力支持自己的工作。我本人主要负责带领一支小而精的算法研究团队，同时小米集团还配备了大量的工程人员来攻坚产品化过程中的一系列难题。目前已有多项研究成果落地到小米的各项产品中，譬如小爱语音助手。

陆主席：作为一个完全开源的项目，新一代 Kaldi 是否吸引了众多热衷于技术的“极客”？

Daniel 博士：借助开源的力量，新一代 Kaldi 确实吸引了来自世界各地的众多开发者贡献代码，他们会指出和帮助修复代码的问题，甚至开发新的功能。新一代 Kaldi 拥有一个极其活跃的开源社区。

02‍

新一代 Kaldi 的发展方向？

陆主席：最近一段时期大量中国人开发、维护、应用大模型（在全球仅次于美国），我也写了一篇研究文章“大模型发展的起步、路径和未来”，以自然语言处理 NLP 为起步，以新知识工程或大模型为发展路径，从深度学习出发到认知智能建模或到通用人工智能（AGI）建模，未来通过开源来解决人工智能的安全问题。

大模型的发展关键在于突然涌现出推理能力，而推理能力赋予机器生成自然语言，为实现人机对话创造条件，同时开通了走向通用人工智能的路径。关于突然涌现推理能力，奥特曼（Sam Altman）和马斯克（Elon Musk）均感到这很令人费解（其实这是在语料库中参数增加到一定程度后，伴随深度学习神经网络的统计方法起作用）。

我赞成两年前Daniel 博士对我说的 “Kaldi 不同于大规模语义网络（即大模型）”，但我想大模型突破推理机制是否会对 Kaldi 的发展提供启示呢？或者说 Kaldi 未来如何发展呢？

Daniel 博士：新一代 Kaldi 考虑与大模型两个模型结合在一起，高效协同以达到最优性能。

陆主席：两个模型结合的过程是如何实现的，是否需要各自都要舍弃一些，保留一些呢？

Daniel 博士：目前，新一代 Kaldi 通过基于权重的打分融合方式将大模型和新一代 Kaldi 自身的模型结合起来，即对两个模型的输出分数进行加权，并寻找最佳的权重配比。同时，新一代 Kaldi 也在探索使用交叉注意力机制结合两种模型的方式，这是一种更为先进的融合方式。

03‍

期待下一次见面

在会议尾声，陆主席说，在已经取得丰硕成果的科学家里，Daniel 博士正处于年富力强的阶段，很看好他和 Kaldi 项目的未来，希望新一代 Kaldi 团队能够再接再厉，坚定不移，自主研发，持续产出更多新成果。

Daniel 博士向陆主席表示，他们将努力工作，期待下一次向陆主席汇报新一代 Kaldi 的最新成果。

在会议后面的讨论环节，共同参会的小米开源委员会副主席覃左言还向参会人员介绍了小米开源的最新进展。

小米集团首席语音科学家 Daniel Povey

与 COPU 主席陆首群合影

小米集团开源委员会副主席覃左言

与 COPU 主席陆首群合影

小米集团首席语音科学家 Daniel Povey

与 COPU 副主席刘澎合影

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/520254