Kyutai开源革命性实时多模态基础模型Moshi，震撼科技界_开源实时交互多模态大模型

作者：小惠珠哦 | 2024-07-26 19:53:59

踩

开源实时交互多模态大模型

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

在震撼科技界的惊人宣布中，Kyutai推出了Moshi，这是一款革命性的实时本地多模态基础模型。该创新模型不仅反映了OpenAI在5月展示的GPT-4o的部分功能，还在某些方面超越了它。https://kyutai.org/

Moshi旨在理解和表达情感，具备多种功能，包括以不同口音（如法语）说话。它可以聆听和生成音频和语音，同时保持文本思维的流畅衔接。Moshi的一个突出特点是能够同时处理两个音频流，使其可以同时聆听和讲话。这种实时交互基于文本和音频的联合预训练，利用了Kyutai开发的7B参数语言模型Helium的合成文本数据。

实验性AI研究快讯

Kyutai强调了负责任的AI使用，通过水印技术检测AI生成的音频，这是目前正在进行中的功能。决定将Moshi作为开源项目发布，体现了Kyutai对透明性和AI社区合作开发的承诺。

Moshi由一个7B参数的多模态语言模型驱动，处理语音输入和输出。模型采用两通道I/O系统，同时生成文本令牌和音频编解码器。基于Kyutai内部开发的Mimi模型，语音编解码器具备300倍压缩率，捕捉语义和声学信息。

训练过程与部署效率

Moshi的训练过程非常严格，细调了100,000个带有情感和风格注释的高细节转录文本。支持70种不同情感和风格的文本到语音引擎在由一名叫Alice的授权配音员录制的20小时音频上进行了细调。该模型设计适应性强，可以在不到30分钟的音频中进行细调。

Moshi的部署展示了其高效性。演示模型托管在Scaleway和Hugging Face平台上，能够在24GB VRAM下处理两个批次。它支持多种后端，包括CUDA、Metal和CPU，并通过Rust优化推理代码。增强的KV缓存和提示缓存预计将进一步提高性能。

未来计划与开源愿景

展望未来，Kyutai对Moshi有着雄心勃勃的计划。团队打算发布技术报告和开源模型版本，包括推理代码库、7B模型、音频编解码器和完整的优化栈。未来版本如Moshi 1.1、1.2和2.0将基于用户反馈改进模型。Moshi的许可旨在尽可能宽松，以促进广泛采用和创新。

总结

Moshi展示了小而专注的团队在AI技术上取得非凡进展的潜力。该模型为研究辅助、头脑风暴、语言学习等开辟了新途径，展示了AI在设备上部署时的非凡灵活性和变革力量。作为开源模型，它邀请了广泛的合作与创新，确保这项突破性技术的好处惠及所有人。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/886970