开源版GPT-4o来了，AI大神Karpathy盛赞！67页技术报告全公开

2,452 0 0

文章摘要

法国初创团队Kyutai开发的端到端语音模型Moshi已经开源，该模型以其自然聊天、情绪丰富、支持打断和非回合制对话等特点受到关注。模型参数量为7.69B，支持在pytorch平台上以bf16版本运行，同时也提供了8bit和4bit版本以适应不同硬件需求。Moshi模型由几个关键部分组成，包括流式神经音频编解码器Mimi和负责知识储备、理解和输出的Transformer部分，包括Helium Temporal Transformer和Depth Transformer。

Mimi编解码器能够以流式方式处理24 kHz音频，延迟仅为80毫秒，而Moshi的理论延迟为160毫秒，实际总延迟在L4 GPU上为200毫秒。Moshi通过较小的音频语言模型增强了文本LLM主干，消除了文本信息瓶颈，同时受益于底层文本LLM的知识和推理能力。

Helium部分采用了通用设计，如RMS归一化、旋转位置嵌入（RoPE）、FlashAttention等，分词器基于SentencePiece，包含32,000个主要针对英语的元素。模型在公共英语数据的2.1T token上进行预训练，数据来源包括维基百科、Stack Exchange、科学文章以及网络爬取数据。

Mimi使用残差矢量量化（RVQ）将音频转换为Moshi预测的离散token，并通过蒸馏将非因果的高级语义信息传输到因果模型生成的token中，允许对语义进行流式编码和解码。

Moshi架构将Helium与较小的Transformer模型相结合，以分层和流式传输的方式预测音频token，提供了优于非流模型的清晰度和音频质量。此外，Moshi引入了多流音频语言模型，将输入和输出音频流联合显式处理为两个自回归token流，消除了说话者转向的概念。

内心独白是Moshi训练和推理过程中的一种新方法，通过在音频token之前预测时间对齐的文本token，显著提高了生成语音的事实性和语言质量。这种方法允许Moshi推理来自用户音频和Moshi音频的非语言信息，同时在其语音输出中生成文本。

Moshi模型的开源为AI语音助手领域带来了新的可能性，提供了一种更自然、更接近人类对话方式的交互体验。