苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

AIGC动态1年前 (2024)发布 almosthuman2014

1,942 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

苹果公司近期在生成式人工智能（GenAI）领域取得了显著进展，特别是在多模态大型语言模型（MLLM）的研究上。苹果CEO蒂姆·库克在2024年苹果股东大会上表示，公司将在GenAI领域实现重大突破。此外，苹果放弃了长达10年的造车项目，部分团队成员转向GenAI领域。

苹果的研究团队在一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文中公布了自家的多模态大模型研究成果。这个模型具有高达30B参数的多模态LLM系列，研究团队探讨了不同架构组件和数据选择的重要性，并总结出了关键设计准则。

研究者在模型架构决策和预训练数据选择上进行小规模消融实验，发现图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据的重要性。他们使用了三种不同类型的预训练数据：图像字幕、交错图像文本和纯文本数据。研究发现，交错和纯文本训练数据对少样本和纯文本性能至关重要，而字幕数据对零样本性能最为重要。

苹果构建了一个名为MM1的多模态模型系列，参数最高可达300亿。MM1在预训练指标中实现了SOTA，并在一系列多模态基准上保持竞争力。预训练模型MM1在少样本设置下的字幕和问答任务上表现优于其他模型。监督微调后的MM1在12个多模态基准上也具有竞争力。

研究者详细介绍了构建高性能MLLM的实践方法，包括架构设计、数据选择和训练程序。他们通过消融实验评估了不同设计决策的影响。在模型架构方面，研究者研究了不同的预训练图像编码器，并探索了将LLM与这些编码器连接的方法。在数据方面，研究者考虑了不同类型的数据及其相对混合权重。在训练程序方面，研究者探讨了如何训练MLLM，包括超参数以及在何时训练模型的哪些部分。

研究者通过消融实验分析了图像编码器预训练的重要性，发现图像分辨率和图像编码器预训练目标的影响最大。在视觉语言连接器方面，视觉token数量和图像分辨率最为重要，而连接器类型影响较小。

在预训练数据方面，研究者发现交错数据有助于提高少样本和纯文本性能，而字幕数据则能提高零样本性能。纯文本数据也有助于提高少样本和纯文本性能。谨慎混合图像和文本数据可获得最佳的多模态性能，并保留较强的文本性能。合成数据对少样本学习有显著提升。

最终，研究者确定了MM1多模态预训练的最佳配方，包括图像编码器、视觉语言连接器和数据。为了提高模型性能，研究者将LLM的大小扩大到3B、7B和30B个参数。所有模型都在特定条件下进行完全解冻预训练，并使用AXLearn框架进行训练。

在监督微调（SFT）实验中，研究者收集了约100万个SFT样本，并采用了扩展到高分辨率的SFT方法。监督微调后的MM1模型在多个基准测试中表现优于其他相同规模的模型。此外，苹果的MoE模型在几乎所有基准测试中都比密集模型取得了更好的性能，显示了MoE进一步扩展的巨大潜力。

总之，苹果公司在多模态大型语言模型领域取得了重要进展，其研究成果有望为未来的文生图产品提供基础。研究团队通过消融实验和优化设计决策，成功构建了一个具有竞争力的MM1模型系列。