赞
踩
还记得前一段时间我们为言语障碍用户阿卷定制了“属于”他的声音吗?如果遗忘了,不妨回顾下《小米自研语音合成声音定制技术:让世界听见你的声音!》
在此之中,我们一直重复提到“小米闻声”和“AI通话”,对于我国7200万听障伙伴们提供了极大的便利。那么,这两个功能以及背后技术原理,你了解吗?
小米闻声和AI通话是什么?
小米闻声和AI通话都是实现语音与文字实时互转的工具,但是应用的场景不同,小米闻声主要用于面对面交流场景,或者搭配微信通话与视频会议,将系统采集到的声音实时识别成文字;同样地,输入文字内容,可以转化成语音实时发送。
图:小米闻声正在进行麦克风收音识别
除此之外还有悬浮窗模式,搭配选择系统内录收音,就可以让你在看直播的时候拥有实时字幕!
图:小米闻声(悬浮窗模式)正在进行系统内录收音识别,为直播加上字幕
而AI通话顾名思义就是应用在拨打电话、接听来电时的智能助手,帮你自动应答。通话时,它能够将对方的语音实时转成文字,为不方便接听电话的用户提供了便利。答复对方时,只要输入文字就可以转成语音发送;也可以选择自动应答,让系统智能回复。
图:AI通话示意图,正在将语音转录为文字并推荐回复语
是这三项技术让机器有了“耳、脑、口"
而小米闻声和AI通话之所以能实现,背后离不开三项技术:语音识别(Automatic Speech Recognition,ASR)、自然语言处理(Natural Language Processing,NLP)以及语音合成(Text-To-Speech,TTS),而小米在ASR、NLP、TTS上都有处于行业尖端的成就。让我们进一步来了解这些技术吧!
语音识别(Automatic Speech Recognition,ASR)这项技术相当于机器的“耳朵”,是将声音转化成文字的第一步。
作为语音交互流程的基础,ASR主要可分为“语音输入—编码—解码—文本输出 ”4个流程。
1.语音输入:手机麦克风接受输入的声音,把声音转变为计算机能够处理的数字信号;
2.编码:把数字信号切割成小段,转化成机器能识别的向量数据;
3.解码:利用声学模型与语言模型,把这些向量数据重新拼接成文字;
4.文本输出:最后在屏幕上输出的就是识别出来的文本。
如此在小米闻声与AI通话中,我们就可以看到对方所念出来的语音文本。
图:ASR技术流程示意图
目前我们已经通过语言模型快速定制,让ASR能够实现线上纠错“10秒快修”,就是可以把语音转译的错误快速运营掉。
除此之外还实现了个性化识别,针对不同的人群发音特征进行算法迭代,例如儿童相较成人的特点是发音不稳定、叠词多导致的识别难度大,小米针对儿童群体进行了个性化语音识别,还曾获得IEEE儿童语音识别竞赛大数据量赛道的世界冠军。
在能够识别出文本之后,接下来就需要进一步理解文本内容,这时自然语言处理(Natural Language Processing,NLP)技术就派上了用场。
NLP相当于机器的“大脑”,负责识别与理解文本的话题和意图。而要理解文本,则包含了四个步骤:文本输入—特征提取—语义分析—决策输出。
1.文本输入:ASR识别出输入的文本后,由NLP模块接收并将其编码成模型可以处理的数据格式;
2.特征提取:被编码后的数据将会被神经网络加工,并提取出一些具有辨识性的信号和关键信息;
3.语义分析:被提取出的关键信息将被汇总进行更高阶的推理分析,从而判断这条文本属于哪个话题、属于什么样的意图,让机器理解文本想要达成的目的;
4.决策输出:最终,机器会辅助推荐对应的话题、意图的回复话术。
如此,在AI通话中,就可以推荐合适的回复语句,或是自动提供对应的回答文本,用于自动应答。
例如,文本输入“你的快递到了”,会提取出与“快递”“到了”两个提示词相关的特征并进行汇总,推理出这是跟收取快递相关的意图,所以机器会推荐回复“快递放在门口就行”。
图:NLP技术流程示意图
而NLP有一个特点就是细分任务非常多,要识别用户意图、槽位、情绪等,每种任务都需要大量的标注数据。而我们也通过广泛使用无监督预训练技术,实现了只需要较少标注样本就能有较高的准确率;小米自研的算法也在Resume、Weibo多项中文实体识别数据集中取得了业内最佳的效果,相关论文被业内学术顶会收录。
但是理解了文本内容,推荐了合适的文本之后,如何在小米闻声中能够让不方便看的人听见,或是在AI通话中让对方听见呢?这就需要使用语音合成(Text-To-Speech,TTS)技术,把文本转化成语音,也就相当于机器的“嘴巴”。
而为了要让发音更加流畅自然,避免因为机械音所造成的误解与不耐烦,我们将从NLP传输过来的决策文本,利用深度学习实现TTS,使人声更加自然而真实。这种方法主要分为3个模块:前端、声学模型和声码器。
1.前端:前端负责接受文本之后,提取解析文本特征,决定读音、韵律等语言学特征描述;
2.声学模型:声学模型则基于深度学习来产出实时的语音参数;
3.声码器:最终声码器负责根据参数生成可播放的声音波形,从而生成能够播放的语音信号。
图:TTS技术流程示意图
目前我们也已经实现了TTS全面自研,在语音合成的韵律、个性化定制、以及情感这三个方面实现了重大的突破。像是“超级拟人语音合成技术”就可以真实、自然地体现人的情绪与语气,“个性化歌唱技术”则可以利用说话的语料合成唱歌的音频,这一技术可是业界首发。
让我们一起来听听看“超级拟人”的合成音色-知岚吧!
如此借助ASR、NLP、TTS三项技术,我们就让机器有了“耳、脑、口”,完成了“听懂、理解、回答”的闭环。
图:ASR、NLP、TTS技术总流程示意图
解决问题,不需要重造轮子
而上述的几项技术,一般都是独立发展,单独使用在各自领域。但AI通话和小米闻声这则是将三项技术融合发挥,一同构成完整的语音-文字互转功能,为障碍群体提供了极大的方便,成为无障碍领域的优秀标杆。
许多人赞赏它们简洁强大的功能,也有人感叹:“技术都已经分别成熟了,但没人想过可以这样结合使用。”
“没有人想过结合”,背后是对无障碍问题的理解误区。很多时候大家对障碍用户的需求会有两极分化的理解,一种是“凑活能用就行,还要啥自行车”,一种是“Ta都残了,那不得是最高科技才能拯救Ta?”
其实,这两种惯性思维背后都有一个预设——“障碍者的需求是一类非常难处理的、独立于常规生活的、需要额外支付高昂成本的问题”。
但是,正如这两款产品所展示的,解决问题有时不需要惊天动地的技术创新,而是立足现有的技术,与已有资源进行整合,就能够切实解决痛点。
方便你,方便我,方便TA
AI通话的开发初衷,是想提供一个语音助手,方便开会中的商务人士或是应对频繁的骚扰电话。许多用户都说,他们经常会用AI通话。开会时有电话打进来,不能接起也不想挂掉,用AI通话看看对方说了什么;看到疑似推销或快递电话时,不愿浪费时间还怕错过重要信息,也可以丢给AI通话,让两边自己聊天……
图:用户对AI通话提出的反馈
然而在开发过程中我们就逐步发现,AI通话的应用场景远不止如此,它还可以解决听障用户接听电话的难题。如此就让AI通话的使用范围更加扩大,也促使了小米产品的开发思路更加具有包容性,这也是我们一直在强调的包容性设计。
一直以来,我们持续保持跟障碍用户的交流,进行无障碍修复与改进,也并不是“为了少数人的需求”,而是通过理解残障者的需求,获得更加普适、通用的思路或者答案。正如小米无障碍团队的好朋友、无障碍设计师夏冰莹所说:
“ 无障碍也是一面问题放大镜,能帮助你看到产品中潜在的问题。如果一个患有手抖症的人很难按到你的按钮,那么这个按钮有可能对于很多用户来讲都容易误触。如果一个有学习障碍的人说你的界面和布局很难看懂,那么这个界面有可能对很多用户来讲都太复杂。”
将先进的技术应用到无障碍,能创造更多的可能性。而无障碍场景的应用,既让障碍用户们获得了更加自由、平等、有尊严的生活,也希望我们都可以把技术的边界更加扩大与包容,建立一个可以平等参与且有利创造的环境,为所有人提供一个共同受益的前景。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。