英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

AIGC动态1年前 (2024)发布 AIera

1,589 0 0

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

文章摘要

英伟达公司发布了一款名为Nemotron-4 340B的开源模型，该模型在人工智能领域具有潜在的革命性意义。Nemotron-4 340B能够生成合成数据，可能将改变训练大型语言模型（LLM）的方式，减少对昂贵真实世界数据集的依赖。这一创新的模型在性能上超越了现有的多个模型，包括Mixtral 8x22B、Claude sonnet、Llama3 70B和Qwen 2，并能与GPT-4竞争。

Nemotron-4 340B模型由基础模型(Base)、指令模型(Instruct)和奖励模型(Reward)组成，构建了一个完整的高质量合成数据生成流程。该模型支持4K上下文窗口、50多种自然语言和40多种编程语言，训练数据截止到2023年6月。在训练过程中，使用了高达9万亿个token，其中8万亿用于预训练，1万亿用于继续训练以提高质量。指令模型的训练主要基于合成数据。

Nemotron-4 340B在多个基准测试中展现了出色的性能，包括在常识推理任务ARC-Challenge、MMLU和BigBench Hard中与Llama-3 70B、Mixtral 8x22B和Qwen-2 72B模型相媲美。此外，Nemotron-4-340B-Instruct在指令跟随和聊天能力方面超越了相应的指令模型。Nemotron-4-340B-Reward在RewardBench上实现了最高准确性，甚至超过了GPT-4o-0513和Gemini 1.5 Pro-0514这样的专有模型。

在硬件需求方面，模型的推理在BF16精度下需要8块H200，或16块H100/A100 80GB。如果是在FP8精度下，则只需8块H100。Nemotron-4 340B的许可对商用非常友好，这可能进一步推动其在各行各业的应用，包括医疗、金融、制造业和零售业等。

Nemotron-4 340B的发布也引发了关于数据隐私和安全的讨论。随着合成数据的普及，企业需要有相应的防护措施来保护敏感信息，并防止滥用。此外，使用合成数据训练AI模型可能引发的伦理问题，如数据中的偏见和不准确，也需要被认真考虑。

英伟达的Nemotron-4 340B模型采用了创新的预训练方法，包括使用9万亿token的预训练数据，这些数据基于三种不同类型的混合：英语自然语言、多语种自然语言和代码。模型架构基于仅解码器Transformer，使用了多种先进的技术，如旋转位置嵌入（RoPE）、SentencePiece分词器和分组查询注意力（GQA）。

在训练过程中，Nemotron-4-340B-Base使用了768个DGX H100节点，每个节点包含8个H100 80GB SXM5 GPU。模型的训练采用了8路张量并行、12路交错流水线并行和数据并行的结合方法，并使用了分布式优化器。

评估结果显示，Nemotron-4-340B-Base在多个基准测试中取得了优异的成绩，与现有的开源模型相比，展现了其在常识推理任务和代码基准测试中的优越性能。

此外，英伟达还开发了一个强大的奖励模型，使用了包含10k人类偏好数据的数据集——HelpSteer2。这个多属性回归奖励模型在区分真实有用性和无关伪影方面更有效，并且在预测细粒度奖励、捕捉相似回复之间的有用性细微差别方面表现更好。这为训练强指令跟随模型时的偏好排序和质量过滤提供了重要的评判工具。