文章摘要
【关 键 词】 强化学习、开源模型、后训练、性能超越、多阶段训练
艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,该模型在多项关键基准测试中超越了DeepSeek v3和GPT-4o。Tülu 3 405B在标准的基准测试中展现了与Deepseek v3和GPT-4o相当或更优的性能,同时超越了许多先前发布的后训练开源模型,如Llama 3.1 405B Instruct和Nous Hermes 3 405B。尽管官网提供的体验版在某些问题上表现不佳,但在需要推理的问题上,模型能够给出正确的回答思路。
Tülu 3 8B和70B已支持ollama下载,方便集成使用,预计405B也将很快上线ollama平台。Tülu 3的构建流程包括数据、训练和评估三部分,项目始于确定通用语言模型的关键期望能力,包括知识、推理、数学、编程、指令遵循、日常聊天和安全性。模型训练基于预训练语言模型Llama 3 Base,采用四阶段后训练配方,包括精心策划和合成式提示、监督微调、偏好微调和基于强化学习的方法。
Tülu 3使用了一种独创的后训练方法,称为可验证奖励强化学习(RLVR),专门针对具有可验证结果的任务,如数学问题求解和指令遵循问题。训练采用的可验证奖励强化学习框架在更大规模上对数学性能的提升更为显著。训练Tülu 3 405B时使用了32个节点(256个GPU)并行运行,对于推理,可使用vLLM部署模型。
Tülu 3采用了全新的后训练框架,包括完全开源的数据、评估、训练代码以及开发配方,并在性能上超越了同尺度的开源及闭源模型。这标志着开放后训练研究的一个新的里程碑,为在多目标和多阶段训练框架内推进后训练研究铺平了道路,其提出的训练方法也值得开发者借鉴。
原文和模型
【原文链接】 阅读原文 [ 1518字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆