超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光

AIGC动态3小时前发布 AIera
54 0 0
超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光

 

文章摘要


【关 键 词】 开源模型推理训练优化

英伟达最新发布的Llama-Nemotron系列模型推理性能和内存效率上超越了DeepSeek-R1,并且已经全面开源。这一系列模型包括LN-Nano 8B、LN-Super 49B和LN-Ultra 253B,其中LN-Ultra在单个8xH100节点上运行时表现出更高的推理吞吐量。这些模型通过优化推理效率、引入前馈网络融合(FFN Fusion)等技术,显著提升了计算资源的利用率。

Llama-Nemotron模型的构建分为五个阶段,包括神经架构搜索(NAS)、知识蒸馏、监督微调(SFT)、大规模强化学习(RL)以及对齐训练。通过这些步骤,模型不仅恢复了在模块替换过程中可能出现的质量损失,还在复杂的数学和STEM数据集上实现了性能的显著提升。特别是LN-Ultra,在GPQA-D基准测试中表现出色,确立了其在开源领域科学推理中的领先地位。

在模型架构设计方面,英伟达借助神经架构搜索Puzzle框架,优化了LN-Super和LN-Ultra的推理效率。Puzzle框架通过逐块局部蒸馏的方式,构建了替代Transformer模块的库,并在实际部署限制下,将大语言模型转化为更适配硬件运行的高效版本。这一过程中,研究者还引入了FFN Fusion技术,通过减少模型的序列深度并提升推理延迟效率,进一步优化了模型的性能。

在训练过程中,研究者使用了合成数据进行监督微调,并通过大规模强化学习(RL)增强了模型的科学推理能力。特别是LN-Ultra,通过强化学习训练,在GPQA-Diamond数据集上实现了超越教师模型的性能。此外,研究者还通过在线RPO(OnLine Reward-Policy Optimization)方法,优化了模型的指令跟随能力和聊天表现,使其在Arena Hard测试中取得了高分。

Llama-Nemotron系列模型在推理和非推理任务中的表现均非常出色。在推理类基准测试中,LN-Nano和LN-Super表现出色,而LN-Ultra则在多个推理基准测试中接近或达到了DeepSeek-R1的性能。特别是在GPQA上,LN-Ultra达到了开源模型中的最先进水平。此外,这些模型在分布外任务中也表现出很强的泛化能力,例如在JudgeBench数据集上,LN-Ultra的表现超过了当前顶尖的专有模型和开源模型。

总的来说,Llama-Nemotron系列模型通过创新的架构设计和训练方法,不仅在推理性能上取得了显著突破,还在开源领域树立了新的标杆。这些模型的成功不仅展示了英伟达在AI领域的领先地位,也为未来的模型优化和应用提供了宝贵的经验。

原文和模型


【原文链接】 阅读原文 [ 3815字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...