法国 AI 实验室 Kyutai 发布实时语音开源模型，功能超过 GPT-4o_moshi 开源

作者：你好赵伟 | 2024-07-26 19:50:14

踩

moshi 开源

法国非营利 AI 研究实验室 Kyutai 推出了 Moshi，这是一款实时原生多模态基础 AI 模型。这个开源项目具备语音功能的 AI 助手，其能力超越了 OpenAI 的 GPT-4o 和 Google Astra。

Moshi 基于 Helium 7B 模型构建，能以各种口音和 70 种情感和风格说话，并能同时处理两个音频流。Moshi 还集成了文本和音频训练，能在 200 毫秒内实现实时互动，优化了多种后端，可以在笔记本电脑上运行而无需云端交互。Kyutai 将 Moshi 开源，并计划加入 AI 音频识别和水印功能。Moshi 的语音模式令人印象深刻，Kyutai 计划发布完整模型，目标是促进 AI 开放研究和生态系统发展，还可能会推动其他语音助手的开发。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/886952