文章摘要
法国AI实验室kyutai近日发布了一款名为Moshi的实时原生多模态AI模型,该模型在演示中展示了接近GPT-4o水平的性能,引起了广泛关注和AI界大佬的转发。Moshi的开发由一个8人团队在半年内完成,模型训练使用了大约1000个GPU。
Moshi模型具备理解和表达情感的能力,支持听、说、看,并能以70种不同的情绪和风格进行对话。其突出功能之一是能够同时处理两个音频流,即边听边说,实现实时互动。这一功能基于文本和音频混合的联合预训练,使用Helium中合成的文本数据,训练出一个具有70亿参数的模型。Moshi能够实现最低160ms的端到端延迟,并且其最小版本可以在笔记本电脑或消费级GPU上运行。
Moshi的开源特性使其成为了一个免费使用的资源,Pytorch之父对其在实时语音助手领域的领先地位表示赞叹,并期待Kyutai实验室稍后发布的代码。
在演示中,Moshi展示了其强大的语音能力和多语种表达能力,包括用不同风格的语气朗诵诗歌、讲述冒险故事,以及进行角色扮演等。Moshi能够在对话中即时反应,即使在问题尚未结束或被打断时也能给出回答,这得益于模型中的预测编码和即时更新机制。
目前,公众可以通过加入候补名单来体验Moshi,每次对话限时5分钟。Moshi的发布和演示不仅展示了AI技术的进步,也为未来AI应用提供了新的可能性和方向。
原文和模型
【原文链接】 阅读原文 [ 4490字 | 18分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...