苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 苹果公司、生成式AI、多模态模型、预训练数据、性能优化
苹果公司近期在生成式人工智能(GenAI)领域取得了显著进展,特别是在多模态大型语言模型(MLLM)的研究上。苹果CEO蒂姆·库克在2024年苹果股东大会上表示,公司将在GenAI领域实现重大突破。此外,苹果放弃了长达10年的造车项目,部分团队成员转向GenAI领域。
苹果的研究团队在一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文中公布了自家的多模态大模型研究成果。这个模型具有高达30B参数的多模态LLM系列,研究团队探讨了不同架构组件和数据选择的重要性,并总结出了关键设计准则。
研究者在模型架构决策和预训练数据选择上进行小规模消融实验,发现图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据的重要性。他们使用了三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。研究发现,交错和纯文本训练数据对少样本和纯文本性能至关重要,而字幕数据对零样本性能最为重要。
苹果构建了一个名为MM1的多模态模型系列,参数最高可达300亿。MM1在预训练指标中实现了SOTA,并在一系列多模态基准上保持竞争力。预训练模型MM1在少样本设置下的字幕和问答任务上表现优于其他模型。监督微调后的MM1在12个多模态基准上也具有竞争力。
研究者详细介绍了构建高性能MLLM的实践方法,包括架构设计、数据选择和训练程序。他们通过消融实验评估了不同设计决策的影响。在模型架构方面,研究者研究了不同的预训练图像编码器,并探索了将LLM与这些编码器连接的方法。在数据方面,研究者考虑了不同类型的数据及其相对混合权重。在训练程序方面,研究者探讨了如何训练MLLM,包括超参数以及在何时训练模型的哪些部分。
研究者通过消融实验分析了图像编码器预训练的重要性,发现图像分辨率和图像编码器预训练目标的影响最大。在视觉语言连接器方面,视觉token数量和图像分辨率最为重要,而连接器类型影响较小。
在预训练数据方面,研究者发现交错数据有助于提高少样本和纯文本性能,而字幕数据则能提高零样本性能。纯文本数据也有助于提高少样本和纯文本性能。谨慎混合图像和文本数据可获得最佳的多模态性能,并保留较强的文本性能。合成数据对少样本学习有显著提升。
最终,研究者确定了MM1多模态预训练的最佳配方,包括图像编码器、视觉语言连接器和数据。为了提高模型性能,研究者将LLM的大小扩大到3B、7B和30B个参数。所有模型都在特定条件下进行完全解冻预训练,并使用AXLearn框架进行训练。
在监督微调(SFT)实验中,研究者收集了约100万个SFT样本,并采用了扩展到高分辨率的SFT方法。监督微调后的MM1模型在多个基准测试中表现优于其他相同规模的模型。此外,苹果的MoE模型在几乎所有基准测试中都比密集模型取得了更好的性能,显示了MoE进一步扩展的巨大潜力。
总之,苹果公司在多模态大型语言模型领域取得了重要进展,其研究成果有望为未来的文生图产品提供基础。研究团队通过消融实验和优化设计决策,成功构建了一个具有竞争力的MM1模型系列。
原文信息
【原文链接】 阅读原文
【阅读预估】 2980 / 12分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台