开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开

AIGC动态3个月前发布 AIera
607 0 0
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开

 

文章摘要


【关 键 词】 语音模型自然聊天开源AI助手流式处理

法国初创团队Kyutai开发的端到端语音模型Moshi已经开源,该模型以其自然聊天、情绪丰富、支持打断和非回合制对话等特点受到关注。模型参数量为7.69B,支持在pytorch平台上以bf16版本运行,同时也提供了8bit和4bit版本以适应不同硬件需求。Moshi模型由几个关键部分组成,包括流式神经音频编解码器Mimi和负责知识储备、理解和输出的Transformer部分,包括Helium Temporal Transformer和Depth Transformer。

Mimi编解码器能够以流式方式处理24 kHz音频,延迟仅为80毫秒,而Moshi的理论延迟为160毫秒,实际总延迟在L4 GPU上为200毫秒。Moshi通过较小的音频语言模型增强了文本LLM主干,消除了文本信息瓶颈,同时受益于底层文本LLM的知识和推理能力。

Helium部分采用了通用设计,如RMS归一化、旋转位置嵌入(RoPE)、FlashAttention等,分词器基于SentencePiece,包含32,000个主要针对英语的元素。模型在公共英语数据的2.1T token上进行预训练,数据来源包括维基百科、Stack Exchange、科学文章以及网络爬取数据。

Mimi使用残差矢量量化(RVQ)将音频转换为Moshi预测的离散token,并通过蒸馏将非因果的高级语义信息传输到因果模型生成的token中,允许对语义进行流式编码和解码。

Moshi架构将Helium与较小的Transformer模型相结合,以分层和流式传输的方式预测音频token,提供了优于非流模型的清晰度和音频质量。此外,Moshi引入了多流音频语言模型,将输入和输出音频流联合显式处理为两个自回归token流,消除了说话者转向的概念。

内心独白是Moshi训练和推理过程中的一种新方法,通过在音频token之前预测时间对齐的文本token,显著提高了生成语音的事实性和语言质量。这种方法允许Moshi推理来自用户音频和Moshi音频的非语言信息,同时在其语音输出中生成文本。

Moshi模型的开源为AI语音助手领域带来了新的可能性,提供了一种更自然、更接近人类对话方式的交互体验。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1948字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...