赞
踩
2024 全球机器学习技术大会将于 4 月 25、26 日在上海环球港凯悦大酒店隆重举行!著名语音识别开源工具 Kaldi 之父,IEEE Fellow,小米集团首席语音科学家 Daniel Povey 将参加本次盛会,并发表精彩演讲!
Daniel Povey 博士是国际知名的语音识别专家。先后就职于 IBM 和微软。2012年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019年10月加入小米,担任集团语音首席科学家。2022年12月, Daniel Povey 凭借在语音识别和声学建模方面的杰出贡献入选 IEEE Fellow。
Daniel Povey 博士是著名开源语音识别工具 Kaldi 的提出者和主要维护者,被业界称为 “Kaldi 之父”。
Daniel Povey 在智能语音处理的技术上做出了非常多的贡献。他首次将序列区分性训练方法应用于语音识别,他提出的 LF-MMI 建模方法至今仍为商用语音识别系统普遍使用的标准技术。他也是将深度学习用于语音识别领域的重要引领者,在语音识别中推广了时延神经网络,配合 LF-MMI 训练,是 2015-2020 年学术界和工业界普遍使用的最佳组合。他还是深度学习在声纹识别领域的重要引领者,提出的 X-vectors 方法是第一个取得成功并被普遍应用的深度学习说话人识别方法,广泛应用于工业界。他在国际顶级会议和期刊发表论文 200 多篇,谷歌学术引用近 46000 次,h-index 66,担任 Signal Processing Letters 的终身副主编。
Kaldi 项目在学术界和工业界都极具影响力,广泛应用于各研究机构和国内外知名公司,有力地推动了智能语音处理的产业化。Kaldi 自动语音识别技术是人与机器以自然语言顺畅交流的关键技术,Kaldi 集成了多种语音识别模型,包括隐马尔可夫和最新的深度学习神经网络,公认是业界语音识别框架的基石。
在大模型风驰电掣的当下,大模型 GPT 是否对新一代 Kaldi 提出新的挑战?新一代 Kaldi 成果的产品化如何?
Daniel 博士透露,新一代 Kaldi 项目的技术路线与大模型有同有异,相同的方面都采用了 Transformer 架构(这也是当前大多数人工智能模型都在采用的架构),异的方面大模型 GPT 是单一的大系统,而新一代 Kaldi 是由很多小系统协作组成的大系统,这才是未来智能体的发展方向。
他还提到,大模型在一些任务中取得了很好的效果,但训练过程需要海量的数据和算力,因此,很多中小企业无法开展类似的实验。此外,大模型训练策略也较难迁移到小规模的数据任务上。新一代 Kaldi 团队研发了一系列技术,包括神经网络结构优化方案和训练策略、神经网络梯度值矫正优化技术等。基于这些技术,新一代 Kaldi 在不同数据规模的语音识别任务上都取得了业界领先的效果。同时,部分技术也被用于小米大模型的训练过程中,在达到同等模型效果的前提下,可以有效节省训练成本。
新一代 Kaldi 与大模型在语音应用领域的更多分享与讨论,大家可以报名 「2024 全球机器学习技术大会」,现场聆听 Daniel Povey 博士精彩分享。
在本次全球机器学习技术大会上,Daniel Povey 博士将与来自国内外的 50+ AI 专家、学者和业界精英们汇聚一堂,共同分享在大模型和 AI 领域的最新研究成果和实践经验。他们包括:
复旦大学教授,博士生导师,MOSS大模型核心人员,前搜狗首席研究员 张奇
零一万物联合创始人,前字节跳动 AIGC 和视觉大模型 AI 平台负责人 潘欣
北京智源人工智能研究院基础语言与软件组负责人 刘广
新浪微博新技术研发负责人,中国中文信息学会理事 张俊林
北京聆心智能科技有限公司联合创始人 CEO 郑叔亮
面壁智能 CTO,OpenBMB 开源社区联合发起人 曾国洋
度小满金融技术委员会执行主席,数据智能应用部总经理 杨青
白海科技创始人兼 CEO,CCF 大数据专委常务委员和高性能专委委员 卢亿雷
文因互联工程 VP 兼首席科学家,中国人工智能学会会员工委会副秘书长 宋劼
原腾讯音乐机器学习平台 CubeStudio 负责人,楷乔科技联合创始人 栾鹏
DeepWisdom 创始人兼 CEO,MetaGPT 项目作者 吴承霖
WPS AI 技术总监,中国图象图形学学会《文档图象分析与识别专委会》专业委员 熊龙飞
更多嘉宾与主题,请登陆大会官网:www.ml-summit.org 查看!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。