赞
踩
小米年度技术峰会 DAY3 为人工智能技术专场
智能是小米产品力最重要的体现之一。小米拥有世界上最大的手机xAIoT平台,活跃设备超过5亿。人工智能技术,已经在小米的音视觉多模态感知、多模态理解、生成以及控制中实现应用,并构成了智能交互的闭环。
在小米年度技术峰会的人工智能专场,小米集团技术委员会主席、AI实验室主任王斌首先进行了开场致辞, 他表示,人工智能在不断的发展,作为小米技术布局的重要板块,AI一直在小米关键业务中发挥着非常重要的作用,提供着“弹药”的支持。在今天的峰会中,大家一起来感受AI在机器人、智能交互,到智能设计与制造中的广泛应用。
接下来峰会论坛部分,来自技术委的专家工程师们,为大家带来今年小米在人工智能领域的亮点成绩和崭新探索,分享小爱的最新进展,以及铁大的前生今世。
01
每当谈起机器人时,人们总是对人形机器人充满着无限的期待。机器人实验室算法工程师曹晟介绍,CyberOne作为小米首款全栈自研的全尺寸人形仿生机器人,可识别85种环境语义,通过听觉感知6类45种人类的情绪。
同时,CyberOne搭载小米自研的高精度Mi Sense视觉传感器,通过采集数据对环境进行三维重建。自研的高性能伺服驱动关节也具有高密度的峰值扭矩,最大输出扭矩300N.m。在这次分享中,曹晟为大家带来了一场关于人形机器人的基本知识、CyberOne的核心技术,以及“铁大”的研发经历的知识盛宴。
02
目前智能手机发展越来越趋于同质化,各大厂商都在寻找自己产品的差异化发力点。手机相机功能目前是各大厂商投入较大的一个差异化方向,手机的对焦主体选择功能是手机拍照画质好坏的重要因素,但目前这方面的技术还有待提升。
算法工程师于海龙表示,我们通过AI智能算法的引入,自研AI智能追焦系统,能够智能的选择对焦主体并做到持续稳定的追焦,该功能效果达到行业领先水平,为相机准确对焦提供了基础。该功能成为小米12系列等旗舰机型的核心功能。
03
在“Kaldi之父”Daniel Povey的带领下,新一代Kaldi团队致力于研发性能优异、运行高效、能产品落地的开源语音识别系统。算法工程师康魏重点分享了将RNN-T 模型应用到语音识别上的一些探索,以及取得的进展:
首先我们提出并实现了pruned RNN-T 损失函数,相比 pytorch 中的实现,pruned RNN-T 在使用不到 1/5 显存的情况下取得了约10倍的加速;
我们对 Conformer 模型进行了大量改进,使得稳定性和收敛速度显著提升,将模型训练时间减少一半以上,模型的识别错误率降至 2% (Librispeech test-clean 数据集);
最后,我们实现了基于 GPU 的快速解码方法,解码的实时率低至 0.0025,约为实时的400倍。
04
“听觉”作为人体第二重要的感觉,不断优化听感一直是各大技术厂商长期攻坚的领域。为增强用户体验,小米确立了降噪、声场、感知三大声学技术开发方向,辅以实验室进行测试和质量保障的自研路线。
产品经理辛燕舒表示,在降噪方向上,小米全自研的AI通话降噪算法和主动降噪算法已完成了多轮迭代并搭载于多款设备,综合体验全面超越竞品,实现了行业领先。其中,AI通话降噪算法的行业领先体验更是获得了中国计量院的权威认证。
声场方向上,小米全自研的3D环绕声算法已广泛应用在小米耳机、电视、音箱等产品线中。8月发布的Xiaomi Buds 4 Pro,更是搭载了全行业首发的耳机端空间音频算法,受到业界和消费者的一众好评,如同雷总所说的:“这是全球耳机里最先进的”。
感知方向上,小米已独立完成多项先进技术的预研,未来将逐步上线小米各类产品,为用户带来更为新奇的体验。
小米自建的声学实验室负责对上述所有算法进行测试、验收、质量评估,现已覆盖小米多品类200+款产品,为用户的高品质体验保驾护航。未来,小米声学团队将持续探索多个领域、多类产品,并坚持产学研一体化协同路线,让全球每个人都能享受先进声学技术带来的美好体验。
05
语音唤醒作为一轮智能语音交互的起点,对交互的质量起到至关重要的作用。
算法工程师庄伟基表示,为了提升语音唤醒的用户体验,小米语音工程师采用基于麦克风阵列的唤醒算法,将传统信号处理方法与深度学习结合,利用多通道端到端和多模态等技术,有效弥补了传统方案的缺陷。该算法先后落地多款手机、电视、音箱和耳机设备,有效提升小米智能语音设备在复杂声学场景下的唤醒性能。
06
声音体验可以说是小爱同学的一大特色。算法工程师孟猛表示,我们为用户提供了4种默认的官方合成音色,但这四款音色对于我们上亿级的用户来说还远远不够。目前我们在做的就是打造多样化的小爱声音,为每一个用户提供差异化的体验。
因此,小爱同学上线了声音商店平台,给用户提供多样化、有惊喜的精品音色选择。同时我们还实现了自研声音复刻技术的全面推广,让小爱做到了能说会唱。在此过程中,我们也完成了技术升级和迭代。
07
目前,主流的机器翻译都是采用云端在线服务模式,尽管能满足多数场景需求,但在小爱在线实时字幕中却遇到了极大挑战。
算法工程师穆畅表示,今年我们在行业内首次实现了基于高通AI引擎的离线机器翻译能力,打造了低功耗、低延时、低闪烁、低存储、高质量的同传体验,从根本上解决了“在线服务成本高”、“可靠性低”和“隐私不友好”三大痛点,落地小爱实时字幕并在MIX Fold 2发布。在本次峰会中,穆畅介绍到自研机器翻译技术在小米手机和IoT产品中的应用,并着重分享了端侧离线翻译的挑战和实践。
08
小爱闲聊通过打造用户为中心的对话和拟人化能力,为用户提供像人一样的对话体验,和用户交朋友。算法工程师刘伟介绍,我们在技术上完成了三大升级:从检索到生成、从IQ到EQ,从千人一面到千人千面。
在外部机构的nps调研和其他厂商的评测中,小爱闲聊都是业界标杆。对话生成领域通过业界top的话语料和模型的构建,以及用户行为相关算法的实现,形成了技术护城河;在情感对话方面,通过和北大心理合作,创新性引入心理咨询理论,成为行业首创。
09
小米积累的知识计算能力在持续为公司带来惊喜的商业价值提升和人力成本的降低。
算法工程师彭力表示,知识图谱团队结合公司互联网业务中遇到的客货场等问题持续发力,先后在购物、广告等商业场景下的搜索、推荐、精准投放等环节上有所突破并带来GMV及广告收入的良性提升。在语义理解上深挖问答场景下的知识交互技术,利用业界领先的知识计算能力全面赋能小爱智能问答及小米网的智能客服业务。
10
多轮对话是自然的交互方式,例如多次调节音量时省略主体,定闹钟过程中查询天气、以及更复杂的导航、订餐、购物场景。
算法工程师蒋俊杰表示,对话管理是多轮任务完成的关键模块,包括对话状态追踪(DST)和对话决策(POL)两部分。为提升多轮任务完成率,小爱同学在DST模块中落地了基于预训练的多轮改写和槽位继承模型;在POL中,以基于规则的方法为主,并在核心场景里实现了基于有监督学习和强化学习模型的方法。
11
智能制造是小米面向未来的答案。小米正努力向智能制造的深水区探索,在研发设计环节实现更深刻的智能变革。算法工程师徐统业表示,紧跟AI for Science的技术方向,将AI与科学相结合,解决工程领域的重大问题。
目前已经将AI应用在手机充电控制,实现高效的自动PID整定;也应用于汽车结构设计,为工程师提供智能的辅助工具,以及应用于电池状态估计,期待解决电动汽车的续航焦虑。未来,小米的工程师们会持续探索AI在科学、工程领域更大的价值。
下一场是互联网技术专场,届时将由技术专家带大家一窥对复杂系统精巧设计以服务上亿用户、对细节及成本意识的极致优化、对大数据算法的平台及应用、对国际化合规思考、对前沿互联网技术探索。敬请期待~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。