突发！苹果、腾讯同日公布全新大模型研究论文，中美 AI 技术竞争加速｜钛媒体AGI

AIGC动态1年前 (2024)发布 TMTPOSTAGI

2,037 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

苹果公司近日在人工智能领域迈出重要一步，公布了自家的多模态大模型MM1。这一模型拥有高达300亿的参数规模，在预训练指标中实现SOTA，并具备密集模型和混合专家（MoE）变体架构。MM1在一系列多模态基准上监督微调后，展现出竞争力的性能。与此同时，腾讯公司联合清华大学、香港科技大学推出了全新图生视频模型“Follow-Your-Click”，这一模型操作便捷，动画内容丰富，已上架GitHub，代码将于4月公开。

苹果公司CEO 蒂姆·库克在2024年初的财报会议上表示，公司将在生成式人工智能（AIGC）领域实现重大进展。苹果公司结束了长达10年的造车项目“泰坦计划”，将部分员工转移到AI团队，以押注AIGC新浪潮。MM1模型的技术核心要点包括架构、数据和训练过程三个方面。架构方面，MM1采用1.2B的Transformer变压器解码器语言模型，使用CLIP loss训练的ViT-L/14模型，并含144个图像token的视觉语言连接器。预训练数据包括混合字幕图像、交错图像文本文档和纯文本数据。研究者在模型架构决策和预训练数据选择上进行小规模消融实验，发现交错数据有助于提高少样本和纯文本性能等重要特点。

在数据方面，MM1使用了精心组合的数据，包括图像-文本交错文档、图像-文本对文档和纯文本文档。研究者发现，交错和纯文本训练数据对于少样本和纯文本性能至关重要，而字幕数据对于零样本性能最为重要。这些趋势在监督微调（SFT）后仍然存在，表明预训练期间的性能和建模决策在微调后得以保留。

训练过程方面，MM1模型系列包括三种参数版本：30亿、70亿、300亿，均支持多模态、MoE架构。所有模型在特定条件下进行完全解冻预训练，并使用AXLearn框架进行训练。研究者还进行了监督微调（SFT）实验，从不同数据集中收集了约100万个SFT样本，并采用扩展到高分辨率的SFT方法。与SOTA相比较，MM1在多个基准测试中超越了其他相同规模的模型。整体来看，随着预训练数据的增加，模型性能不断提高，MM1在少样本设置下的字幕和问答任务上表现优异，监督微调后的MM1在12个多模态基准上的结果也颇具竞争力。

腾讯混元团队与清华大学、香港科技大学联合推出的“Follow-Your-Click”图生视频模型，基于输入模型的图片，通过点击对应区域和少量提示词，实现静态区域动起来，一键转换成视频。这一技术解决了现有图像生成视频技术在移动图像指定部分上的不足，提高了精准度和灵活性。腾讯混元大模型团队正持续研究和探索多模态技术，加速追赶AI大模型领域的发展。

中美在AI领域的差距主要在于确定技术方向。一旦方向确定，中国的优势在于快速学习能力。预计在一两年内，中美在AI上的差距有望缩小。2024年或将成为中国在AI领域的“应用之年”，大模型将在许多企业的垂直领域发挥重要作用。虽然在短期内中国要超越GPT4的通用大模型较为困难，但在某些垂直领域超过GPT4是完全有可能的。多模态技术被视为人工通用智能（AGI）的起点，要实现AGI，需要将视觉、听觉等多模态认知能力融合起来。