当前位置:   article > 正文

kaldi语音识别实战网盘_第五届Kaldi技术交流会成功举办!

kaldi语音识别实战 百度云

9f2ba14658d4376e5dc6f32ed073bba2.png

一年一度的语音技术交流盛宴——第五届Kaldi技术交流会在北京成功举办。

4d4b1a31b9a0fc3ea32d6e3ca9799074.gif

于北京时间2020年11月15日,北京希尔贝壳科技有限公司联合中国计算机学会语音对话与听觉专业组、AISHELL基金会、小米科技、昆山杜克大学、西北工业大学音频语音与语言处理研究组、中国科学技术大学共同举办了“第五届Kaldi技术交流会”。会议邀请了在当下学术界的精英以及小米集团副总裁崔宝秋博士、Kaldi之父Daniel Povey,齐聚一堂共享技术,探讨学术!

fa9c3cf9c753c2dc7d18649cea044b05.png

为了能够让更多的人参与进来,本次会议全程选择了线上直播的方式进行,让大家足不出户就可以收获满满。会议上午通过线上的形式展开,会议开场由AISHELL CEO卜辉对整场会议进行了说明。

99309caefd0abe10efb2925a188e6177.png

赛事及技术的精彩报告

The NPU DCCRN Speech Enhancement System and Brief Summary on Interspeech2020 DNS Challenge

胡炎鑫

565517eeabc7ebb37fa19a8896875319.png

西北工业大学音频语音与语言处理研究组的胡炎鑫,分享了在微软组织的Interspeech2020 Deep Noise Suppression Challenge(深度噪声抑制挑战赛,简称DNS)上获奖的作品,分别是The NPU DCCRN Speech Enhancement System和Brief Summary on Interspeech2020 DNS Challenge。

在日常生活中所用到的蓝牙耳机或者手机助理总会遇到周围环境噪声的干扰,而且根据环境构造的不同,还会造成音量衰减及混响等问题,由此在技术上产生出了帮助用户实现语音增强的需求。在微软组织的DNS上提出的Deep Complex Convolution Recurrent Network (DCCRN),在网络结构上既满足了轻量化的需求也达到了试验的目标。

最后胡炎鑫提出:如何使得降噪模式更小、更快、更好一直是语音相关从业者追求的目标。

5b1ab454d5c1180c9bd7092f09e04e7c.png

371587cb7fd7c9282ee41381de39ed31.png

基于两阶段注意力机制和卷积神经网络的声学场景分类

王雅健

38d28a23ef9add09ecc97b85948d3def.png

来自中国科学技术大学语音及语言信息处理国家工程实验室的王雅健,在报告中介绍到:声学场景分类系统主要是通过智能系统和算法可以自动的判别出声音所处的环境,此项技术主要应用于智能语音交互的前端,典型的应用就是蓝牙耳机的ANC主动降噪技术。目前声学场景分类存在的困难有音频场景中存在沉余信息并且有效区分性信息较为稀疏、不同场景之间存在相似声学片段,干扰分类模型判断e.g.笑声,说话声、卷积神经网络忽略了时间顺序列上的重要信息。据此希望能够提出一种自适应的网络模型能够突出有效区分性信息,从而提高分类的准确率。

此次方案中所制作的模型框架是基于两阶段注意力机制和卷积神经网络HIGH-RESOLUTION ATTENTION NETWORK WITH ACOUSTIC SEGMENT MODEL(HRAN-ASM),主要由三个模块组成

CNN提取特征的编码模块、ASM序列生成模块、注意力机制模块。采用的数据集则是DCASE task1A,其中包含了8640个音频片段,时长共计24H。

c671ea98007dba4c05a00c8816a01b87.png

dbfaf921abf67914b3428f43d597acd2.png

昆山杜克大学VoxSRC20 Track 1系统介绍

覃晓逸

8388590f13cb67b00de78df380bb7f2d.png

来自昆山杜克大学大数据研究中心 SMIIP 实验室的覃晓逸为大家分享了在2020 VoxCeleb Speaker Recognition Challenge (VoxSRC)赛事上获奖 作品以及经验,报告中介绍了VoxSRC赛事的内容和4项任务。并从Data Augmentation → train Model → Fusion/Calibration详细的讲解 VoxSRC Task1。

2884d9f1d10cfe4910e5563157a89007.png

2dcf6d0539a879cb497984c6fbe74980.png

基于Kaldi工具库的二维隐马尔可夫模型实现

马洁锋

303ee5745bafd04888396f8ef6d0d2f6.png

来自中国科学技术大学语音及语言信息处理国家工程实验室的马洁锋,分享了2020上半年完成的关于Kaldi工具库的二维隐马尔可夫模型实现。在报告中讲到:“试验过程中发现二维的隐马尔可夫模型相较于一维隐马尔可夫模型会有40%的性能提升,同时在部首的切分上面更加的精准。”马洁锋介绍了隐马尔可夫模型基于Kaldi工具库进行的改动,并在中科院自动化所对孤立字数据集进行了试验,同时也将试验结果分享了出来,他希望在未来将该工作扩展至连续文本行,加入对神经网络的支持,尝试实现2D DNN/DCNN-HMM。

14e55c05e5a2c07e0f2670de50a664e4.png

75b0ee6abef992f28bf56927590a04c3.png

IBG AI Speaker Recognition System for Far-Field Speaker Verification Challenge 2020

周飞飞

86b060ee90ad8849406b971e4f6d799e.png

来自腾讯国际事业部的周飞飞向大家分享了IBG AI Speaker Recognition System for Far-Field Speaker Verification Challenge 2020(FFSVC2020)赛事的团队参赛作品。报告中对Training Data,Augmentations和Features and VAD两个数据集进行了简短的介绍,并分享了model structure—ResNet152,以及训练过程的细节,当然训练的步骤还是通过AAM loss进行的,但在此之上进行了一些细节的上的调整。会议上周飞飞为大家展示了试验模型的对比效果。并讲到:“通过比较发现,higher dimensional input features,90-dims > 40-dims,SE-BLOCKS & Extra Fine-tune对普通的说话人识别都是有效的,而Score normalization针对此场比赛更有效果”

0c3e7c4f84cd442b20d452c24c26143d.png

79b76325b3b81c63457d5dcdda8a9c03.png

CN-Celeb: multi-genre speaker recognition

李蓝天

34a8dc6e0e210003be9b04238a297d1c.png

得意音通研究院执行副院长、清华信息国家研究中心助理研究员李蓝天,在报告中以从Collection pipeline、Data profile、Multi-genre challenge、Multi-genre training四个点介绍了《CN-Celeb: multi-genre speaker recognition》,并与大家探讨了不同阶段说话人识别的研究方向,分享了一些独到看法,以及解决的方案方法。

edb7f26d93bd3369e78b3826ac86e98e.png

5ee1f671f072a9ae539e3592c00568ad.png

AISHELL-3多说话人语音合成数据集基线系统描述

史尧

ab00cae2a2f6fa0327fcbbfb21f3af2f.png

来自武汉大学计算机学院的史尧分享的报告是《AISHELL-3多说话人语音合成数据集基线系统描述》,史尧介绍到:“语音合成(TTS)是文字信息到语音信息的转换,随着深度神经网络在该领域的应用,TTS系统实现了极高的音色自然度。AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。由218名来自中国不同口音区域的发言人参与录制。数据库音字确率在98%以上。”而后根据AISHELL-3基线系统的构成,分别对前端模块、声学模式及声码器这三部分进行了详细的讲解。并分享了合成样本以及测量结果。

94c182a600323215865d9424359271e8.png

fc473aefdc433bdd2e8aedb131428591.png

线下交流会

下午的线下交流会在北京小米科技园举行,有些铁杆粉丝为了不错过一分一毫,比原定签到时间还要提前半小时抵达了现场。

会议如期而至,首先由小米集团副总裁崔宝秋博士发表致辞。他讲到:拥抱开源是小米的工程文化和重要组成部分,不仅要站着巨人的肩膀上,更要为巨人指路,而kaldi正是这样的“巨人”,开源是当今时代人类进步的最佳平台与模式。同时他也希望kaldi技术交流会越做越大,希望中国能够在更多的领域崛起,成为人才向往的高地,让中国走在科技的前沿!

7af9ca682d77ed16d1b6882bd18aa8dd.png

来自北京邮电大学的陈堃分享了在Detection and Classification of Acoustic Scenes and Events赛事上的方案《Audio Captioning based on Transformer and pre-trained CNN》,在报告中他讲解了自动音频描述(Automated audio captioning)的构成,以及使用Future works 后可以有效的提升音频特征的提取能力使其能够获得更全面的音频信息以及提升生成的多样性。

 938bacee8f70d61eab67a274c28b2463.png

AISEHLL& AISHELLFoundation创始人卜辉,在AISHELL数据+技术的开源工作上做了报告,报告中讲到:“今年开源的AISHELL3与AISHELL1和AISHELL2不同的地方在于采用44.1KHz的采样率。在去年kaldi交流会发布的HI-MIA,,如今也已经开源到Openslr,没有开源的数据总时长为1561小时,虽然内容只有“你好,米雅”和“HI,MIA”,其关键在于尝试用阵列的方式在真实的室内收集大量的人声,并以此让开发者和研发人员能够实现解决远场声纹方案。”他表示“当下AISHELL所开源的项目里包含了ASR、VPR、TTS三种方案,在语音交互的三驾马车面前已经完成矩阵式的开源。至此,我们仍未结束开源之路,还在尝试更多的努力,做更多的开源项目。”

e09b556fc53f73cbb97f6eda75f107e2.png

45f79901461e284329dee998de4ced4a.png

会议上Kaldi之父Daniel Povey首次亲临Kaldi技术交流会现场,与大家深入交流了下一代kaldi及K2的目前开发情况和未来的规划。

b9960d87e0fb0ef76dcee034d68cd0ec.png

ac907c1d6e3b28f4367412dd648aea68.png

f746a99ca3bf65670ad78da70db5b3c7.png

互动提问环节热火朝天

Daniel Povey倾囊相授,收获满满

由Daniel Povey开发和维护的Kaldi 集成了多种语音识别模型,包括隐马尔可夫和最新的深度学习神经网络,公认是业界语音识别框架的基石。在加入小米的一年里,Daniel Povey设计并开发出了新一代Kaldi。新一代Kaldi分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

   1)Lhotse

Lhotse(训练数据准备部分)将替代以前Kaldi中所有数据准备相关的工作,操作各种音频和文本的元数据。Lhotse除了Kaldi本身,也适用于其他应用。而且Lhotse纯Python代码,方便易用。

abed6049cfa7cb003836bf7127aa3f24.png

   2)Icefall

Icefall(示例脚本集合部分)将代替Kaldi中的示例脚本集合,并独立成为一个单独的子项目。之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

d49b94a9309eaedb2b857a870aef8033.png

   3)k2

新一代Kaldi的核心部分叫“k2”。k2可以让开发者很容易在PyTorch/TensorFlow中实现各种语音识别相关算法,比如CTC、LF—MMI、RNN—T、2nd—pass语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

bed624bdf88bc83625ffd9fee8ea45b5.png

同时,通过k2可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。相较于其他一些语音识别库的优势,k2速度更快,通用性强(可以用来建模多种语音识别算法)。

f802c981d89e52636ca5815c5f7b0083.png

大会最后,由AISHELL CEO 卜辉为Daniel Povey颁发了聘用证书,邀请Daniel Povey作为kaldi技术交流会荣誉顾问,同时也希望每一届,Daniel Povey都能够亲临kaldi技术交流会现场,在学术上与大家一起深入交流。

f8a43172ba4b9363c4de43a753d5abd2.png

希望下一届kaldi交流会再会

最后干货分享给大家

561559d11d347fefde5853de04a0e94c.gif

- 本 期 留 言 -

“感谢分享”

即可获得本次kaldi交流会上

嘉宾演讲PPT的一手资料

- 直播回放地址 -

https://www.bilibili.com/video/BV1QD4y1Q7WF/

b888d9295fec2a15e102446b6246ddab.png 6c7257c09b0d89adf605f2268d34963d.gif扫码关注我们

了解更多语音识别

语音合成等相关领域的干货

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/448176
推荐阅读
相关标签
  

闽ICP备14008679号