8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

AIGC动态5个月前发布 AIera
579 0 0
8人半年肝出开源版GPT-4o,0延迟演示全网沸腾!背后技术揭秘,人人免费用

 

文章摘要


【关 键 词】 AI模型多模态情感理解实时互动开源

法国AI实验室kyutai近日发布了一款名为Moshi的实时原生多模态AI模型,该模型在演示中展示了接近GPT-4o水平的性能,引起了广泛关注和AI界大佬的转发。Moshi的开发由一个8人团队在半年内完成,模型训练使用了大约1000个GPU。

Moshi模型具备理解和表达情感的能力,支持听、说、看,并能以70种不同的情绪和风格进行对话。其突出功能之一是能够同时处理两个音频流,即边听边说,实现实时互动。这一功能基于文本和音频混合的联合预训练,使用Helium中合成的文本数据,训练出一个具有70亿参数的模型。Moshi能够实现最低160ms的端到端延迟,并且其最小版本可以在笔记本电脑或消费级GPU上运行。

Moshi的开源特性使其成为了一个免费使用的资源,Pytorch之父对其在实时语音助手领域的领先地位表示赞叹,并期待Kyutai实验室稍后发布的代码。

在演示中,Moshi展示了其强大的语音能力和多语种表达能力,包括用不同风格的语气朗诵诗歌、讲述冒险故事,以及进行角色扮演等。Moshi能够在对话中即时反应,即使在问题尚未结束或被打断时也能给出回答,这得益于模型中的预测编码和即时更新机制。

目前,公众可以通过加入候补名单来体验Moshi,每次对话限时5分钟。Moshi的发布和演示不仅展示了AI技术的进步,也为未来AI应用提供了新的可能性和方向。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 4490字 | 18分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...