8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功
文章摘要
【关 键 词】 实时语音、多模态模型、情感表达、开源项目、人工智能
法国非营利性AI研究机构Kyutai开发了一个名为Moshi的实时语音多模态模型,该模型具备听、说、看的能力,能够理解带有法国口音的英语。Moshi可以流畅地进行日常对话交流,甚至猜测提问者的意图。在演示视频中,Moshi展示了其角色扮演能力,如以海盗身份讲述冒险故事,以及用低声细语讲述神秘故事。
Moshi的设计目的是理解和表达情感,具有用不同口音说话的能力。它可以同时处理两个音频流,实现实时交互。Moshi的微调过程使用了100,000个合成对话,训练语音在一个单独的TTS模型生成的合成数据上进行,实现了200毫秒的端到端延迟。Kyutai还开发了一个小型版本的Moshi,可以在消费级GPU上运行。
Moshi的核心是一个70亿参数的多模态语言模型,采用双通道输入/输出系统。基础文本语言模型Helium 7B从零开始训练,然后与文本和音频编解码器联合训练。训练Moshi涉及微调100,000个带有情感和风格注释的转录结果。文本转语音引擎支持70种不同的情绪和风格。
Kyutai强调负责任的AI使用,通过嵌入水印来检测AI生成的音频。Moshi作为开源项目发布,彰显了Kyutai对透明度和AI社区内协作开发的承诺。Kyutai计划发布技术报告和开放模型版本,包括推理代码库、7B模型、音频编解码器和完整的优化堆栈。未来版本将根据用户反馈改进模型。
Kyutai是欧洲首个致力于人工智能开放研究的私人倡议实验室,由iliad集团、CMA CGM集团和Schmidt Futures共同创立,初始资金近3亿欧元。Kyutai的使命是解决现代人工智能的基本挑战,专注于开发包含文本、声音、图像等的大型多模态模型。Kyutai坚决致力于人工智能的民主化,并将自己定位为人工智能开放科学的领导者。
Kyutai的创始团队包括首席执行官Patrick Pérez、首席扩展官Edouard Grave、首席科学官Hervé Jégou、首席技术官Laurent Mazaré、首席建模官Neil Zeghidour和创始科学家Alexandre Défossez。科学委员会由Yejin Choi、Yann LeCun和Bernhard Schölkopf组成。Kyutai将为整个欧洲人工智能生态系统提供超高性能、可靠的人工智能模型。
原文和模型
【原文链接】 阅读原文 [ 3481字 | 14分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★