1000万上下文!新开源多模态大模型,单个GPU就能运行

AIGC动态19小时前发布 AIGCOPEN
45 0 0
1000万上下文!新开源多模态大模型,单个GPU就能运行

 

文章摘要


【关 键 词】 大模型上下文开源多模态训练

今年2月初,谷歌发布的Gemini 2.0 Pro支持200万上下文,震惊了整个大模型领域。然而,仅过了2个月,Meta最新开源的Llama 4 Scout就将上下文扩展至1000万,整整提升了5倍,开启千万级时代。Llama 4 Scout能够一次性解读100万字的《战争与和平》,并支持处理1000万token的代码库,展现了其强大的处理能力。Llama 4 Scout是一个专家混合架构模型,拥有1090亿参数,其中170亿为活跃参数,具备原生多模态能力,能够处理文本和图像,支持最多8张图像的输入。

在架构创新方面,Llama 4 Scout采用了无位置交叉嵌入的交错注意层(NoPE),这种设计移除了传统Transformer模型中的位置编码部分,使得模型能够更好地处理长序列任务,并在长度泛化方面表现出色。NoPE通过自注意力机制和前馈网络恢复输入序列的绝对位置信息,并在后续层中实现相对位置编码。测试数据显示,NoPE在多种推理和数学任务中表现优异,尤其是在加法任务中,准确率显著高于其他位置编码方法。此外,NoPE的计算效率更高,节省了训练和推理过程中的时间和资源。

Llama 4 Scout的训练数据规模达到30万亿token,包括文本、图像和视频,比之前开源的Llama 3高两倍。该模型在预训练阶段特别注重多语言能力的培养,支持200种语言,其中包括超过100种拥有超过10亿标记的语言,使其在处理跨语言任务时具备强大的语言理解和生成能力。

除了Llama 4 Scout,Meta还开源了另一个模型Llama 4 Maverick,拥有4000亿参数,其中170亿为活跃参数。Maverick在MMLU/Pro、GPQA、DocVQA、MathVista等测试中表现优异,超越了谷歌的Gemini 2.0和OpenAI的GPT-4o,媲美DeepSeek最新开源的V3模型。Maverick的训练方法包括轻量级监督微调(SFT)、在线强化学习(RL)和轻量级直接偏好优化(DPO)。Meta通过剔除简单数据、筛选更具挑战性的提示以及实施连续在线RL策略,显著提升了模型的性能。

Meta还正在训练一个总参数2万亿的教师模型——Llama 4 Behemoth,该模型主要用于蒸馏和微调小模型,Llama 4 Maverick便是通过它完成的。为了实现性能的最大化,Meta对SFT数据进行了大幅删减,并开发了一个完全异步的在线强化学习训练框架,提升了训练效率。实验数据显示,Llama 4 Behemoth在MMLU Pro、GPQA、MATH-500等测试中的表现优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。

总体而言,Meta通过Llama 4系列模型的开源和训练创新,推动了大模型领域的发展,特别是在上下文长度、多模态处理、多语言支持和训练效率等方面取得了显著进展。这些模型的发布不仅展示了Meta在人工智能领域的技术实力,也为未来的研究和应用提供了新的可能性。

原文和模型


【原文链接】 阅读原文 [ 1790字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...