文章摘要
Kyutai,一个由8人组成的非营利性AI研究实验室,在短短6个月内开发出了一种名为”Moshi”的实时原生多模态基础AI模型。Moshi能够表达70多种情绪,以不同风格说话,甚至模仿口音,并且可以同时处理两个音频流,实现同时听和说的功能。
7月4日,Kyutai在法国巴黎公开发布了Moshi的实验原型,用户可以在网上自由测试体验。Kyutai的所有模型都是开源的,未来计划发布完整模型,包括推理代码库、7B模型、音频编解码器和优化堆栈。
Kyutai团队成立于2023年11月,得到了包括法国亿万富翁Xavier Niel在内的近3亿欧元的投资支持,旨在为AI的开放研究做出贡献并促进生态系统发展。团队还组建了一支由知名人工智能研究人员组成的科学顾问团队,包括Yejin Choi、Yann LeCun和Bernhard Schölkopf。
在发布现场的演示中,Moshi展示了其在各种说话风格之间无缝切换的能力,以及在角色扮演中迅速化身的创造力。Moshi能够用法国口音朗诵诗歌,变身为热情洋溢的海盗讲述冒险故事,甚至用低语的语气讲述神秘故事。
Moshi不仅仅是一个语音AI,还是一个能够处理文本和音频的多模态模型。其主要功能特点包括同时听和说、文本思想、富有情商、实时交互、人人可访问和负责任的AI。
Moshi基于Helium 7B模型构建,集成了文本和音频训练,针对CUDA、Metal和CPU后端进行了优化,支持4位和8位量化。训练过程中,Kyutai使用了各种数据源,包括人体运动数据和YouTube视频。
Moshi的创新技术包括音频语言模型、合成对话和集成深度神经网络,使其对自然语言和对话流程有了深刻的理解。Kyutai还实施了识别Moshi生成内容的策略,包括维护生成的音频签名的数据库,并使用水印技术在音频中嵌入听不见的标记。
Moshi代表了语音AI技术的重大飞跃,有可能彻底改变数字世界中语音的使用。其应用场景包括客服支持、语言学习、医疗保健和娱乐。Moshi的出现对OpenAI等主要人工智能公司提出了挑战,尽管目前Moshi在长时间对话中的连贯性和知识储备方面仍有待改进。
原文和模型
【原文链接】 阅读原文 [ 2952字 | 12分钟 ]
【原文作者】 AI前线
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★