文章摘要
【关 键 词】 人工智能、Nemotron-4 340B、数据生成、模型训练、开源技术
全球人工智能领导者英伟达(Nvidia)于6月15日在其官网开源了一款名为Nemotron-4 340B的大模型,专为生成合成数据而设计。该模型能够快速生成医疗、金融、制造、营销等多个领域的数据,以支持特定大模型的预训练和微调。Nemotron-4 340B包含基础模型、奖励模型和指导模型三个版本,支持RLHF(人类反馈强化学习)、LoRA(低序适配)、SFT(监督式微调)等主流高效微调方法。
Nemotron-4 340B生成的合成训练数据质量极高,对开发高性能大模型具有显著帮助。模型的开源地址为:https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911。此外,Nemotron-4 340B的三个版本可以与英伟达开源的多模态大模型开发框架NeMo和高效推理框架TensorRT-LLM结合使用,为开发者提供了从训练数据到开发、推理框架的一站式服务。
NeMo是一个面向科研人员和PyTorch开发者的可扩展、原生云的生成式AI框架,专用于大语言模型、多模态模型、自动语音识别、文本转语音和计算机视觉等。用户可以通过利用现有代码和预训练模型检查点,高效地创建、定制和部署新的生成式AI模型。NeMo的开源地址为:https://github.com/NVIDIA/NeMo。
TensorRT-LLM是一个易于使用的Python API,专门用于开发定制大语言模型并构建TensorRT引擎,这些引擎包含了针对英伟达GPU上高效推理的最新优化技术。TensorRT-LLM包含了创建Python和C++运行时的组件,用于执行这些TensorRT引擎。还包括与NVIDIA Triton推理服务器集成的后端,这是一个用于提供大模型的生产级系统。TensorRT-LLM的开源地址为:https://github.com/NVIDIA/TensorRT-LLM。
在架构方面,Nemotron-4-340B采用了仅解码器Transformer架构,使用因果注意力掩码,采用旋转位置嵌入,SentencePiece分词器,以及在MLP层中使用平方ReLU激活函数。模型没有偏置项,dropout率为零,输入输出嵌入未绑定,还使用了分组查询注意力。
训练数据方面,Nemotron-4-340B在9万亿tokens数据上进行了预训练,主要使用了英语自然语言数据、多语种自然语言数据和源代码数据三大类。英语自然语言数据包括来自各领域的网络文档、新闻文章、科学论文、书籍等;多语种数据包含了53种自然语言,由单语和平行语料库的文档组成;源代码数据集由43种编程语言组成,如Python、PHP、C#、C++、JAVA等。
训练细节方面,Nemotron-4 340B使用了768个DGX H100节点进行训练,每个节点包含8个基于NVIDIA Hopper架构的H100 80GB SXM5 GPU。每个H100 GPU在进行16位浮点(bfloat16)运算时,峰值吞吐量为989 teraFLOP/s。
在模型对齐方面,Nemotron-4 340B采用了一种全新的算法——奖励感知偏好优化,通过使用由策略网络定义的隐式奖励来近似奖励差距,与直接偏好优化相比,可以防止过拟合难题。开发人员将很快可以在NVIDIA NIM上部署、使用Nemotron-4-340B模型,支持云服务托管,非常方便。NIM地址为:https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain。
原文和模型
【原文链接】 阅读原文 [ 1236字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆