赞
踩
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
在震撼科技界的惊人宣布中,Kyutai推出了Moshi,这是一款革命性的实时本地多模态基础模型。该创新模型不仅反映了OpenAI在5月展示的GPT-4o的部分功能,还在某些方面超越了它。https://kyutai.org/
Moshi旨在理解和表达情感,具备多种功能,包括以不同口音(如法语)说话。它可以聆听和生成音频和语音,同时保持文本思维的流畅衔接。Moshi的一个突出特点是能够同时处理两个音频流,使其可以同时聆听和讲话。这种实时交互基于文本和音频的联合预训练,利用了Kyutai开发的7B参数语言模型Helium的合成文本数据。
Kyutai强调了负责任的AI使用,通过水印技术检测AI生成的音频,这是目前正在进行中的功能。决定将Moshi作为开源项目发布,体现了Kyutai对透明性和AI社区合作开发的承诺。
Moshi由一个7B参数的多模态语言模型驱动,处理语音输入和输出。模型采用两通道I/O系统,同时生成文本令牌和音频编解码器。基于Kyutai内部开发的Mimi模型,语音编解码器具备300倍压缩率,捕捉语义和声学信息。
Moshi的训练过程非常严格,细调了100,000个带有情感和风格注释的高细节转录文本。支持70种不同情感和风格的文本到语音引擎在由一名叫Alice的授权配音员录制的20小时音频上进行了细调。该模型设计适应性强,可以在不到30分钟的音频中进行细调。
Moshi的部署展示了其高效性。演示模型托管在Scaleway和Hugging Face平台上,能够在24GB VRAM下处理两个批次。它支持多种后端,包括CUDA、Metal和CPU,并通过Rust优化推理代码。增强的KV缓存和提示缓存预计将进一步提高性能。
展望未来,Kyutai对Moshi有着雄心勃勃的计划。团队打算发布技术报告和开源模型版本,包括推理代码库、7B模型、音频编解码器和完整的优化栈。未来版本如Moshi 1.1、1.2和2.0将基于用户反馈改进模型。Moshi的许可旨在尽可能宽松,以促进广泛采用和创新。
Moshi展示了小而专注的团队在AI技术上取得非凡进展的潜力。该模型为研究辅助、头脑风暴、语言学习等开辟了新途径,展示了AI在设备上部署时的非凡灵活性和变革力量。作为开源模型,它邀请了广泛的合作与创新,确保这项突破性技术的好处惠及所有人。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。