当前位置:   article > 正文

Kyutai开源革命性实时多模态基础模型Moshi,震撼科技界_开源实时交互多模态大模型

开源实时交互多模态大模型

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在震撼科技界的惊人宣布中,Kyutai推出了Moshi,这是一款革命性的实时本地多模态基础模型。该创新模型不仅反映了OpenAI在5月展示的GPT-4o的部分功能,还在某些方面超越了它。https://kyutai.org/

Moshi旨在理解和表达情感,具备多种功能,包括以不同口音(如法语)说话。它可以聆听和生成音频和语音,同时保持文本思维的流畅衔接。Moshi的一个突出特点是能够同时处理两个音频流,使其可以同时聆听和讲话。这种实时交互基于文本和音频的联合预训练,利用了Kyutai开发的7B参数语言模型Helium的合成文本数据。

实验性AI研究快讯

Kyutai强调了负责任的AI使用,通过水印技术检测AI生成的音频,这是目前正在进行中的功能。决定将Moshi作为开源项目发布,体现了Kyutai对透明性和AI社区合作开发的承诺。

Moshi由一个7B参数的多模态语言模型驱动,处理语音输入和输出。模型采用两通道I/O系统,同时生成文本令牌和音频编解码器。基于Kyutai内部开发的Mimi模型,语音编解码器具备300倍压缩率,捕捉语义和声学信息。

训练过程与部署效率

Moshi的训练过程非常严格,细调了100,000个带有情感和风格注释的高细节转录文本。支持70种不同情感和风格的文本到语音引擎在由一名叫Alice的授权配音员录制的20小时音频上进行了细调。该模型设计适应性强,可以在不到30分钟的音频中进行细调。

Moshi的部署展示了其高效性。演示模型托管在Scaleway和Hugging Face平台上,能够在24GB VRAM下处理两个批次。它支持多种后端,包括CUDA、Metal和CPU,并通过Rust优化推理代码。增强的KV缓存和提示缓存预计将进一步提高性能。

未来计划与开源愿景

展望未来,Kyutai对Moshi有着雄心勃勃的计划。团队打算发布技术报告和开源模型版本,包括推理代码库、7B模型、音频编解码器和完整的优化栈。未来版本如Moshi 1.1、1.2和2.0将基于用户反馈改进模型。Moshi的许可旨在尽可能宽松,以促进广泛采用和创新。

总结

Moshi展示了小而专注的团队在AI技术上取得非凡进展的潜力。该模型为研究辅助、头脑风暴、语言学习等开辟了新途径,展示了AI在设备上部署时的非凡灵活性和变革力量。作为开源模型,它邀请了广泛的合作与创新,确保这项突破性技术的好处惠及所有人。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/886970
推荐阅读
  

闽ICP备14008679号