这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
文章摘要
【关 键 词】 Ai2开源、Tülu 3、后训练、性能提升、评估框架
艾伦人工智能研究所(Ai2)最近推出了Tülu 3,这是一个开源的大型语言模型,包含8B和70B两个版本,并且未来将推出405B版本。Tülu 3的性能超过了Llama 3.1 Instruct的相应版本,其技术报告详细介绍了后训练的细节,这在业界引起了广泛关注。后训练(post-training)在提升模型性能方面越来越重要,包括微调和RLHF等方法。Ai2的这一举措打破了业界的沉默,开源了包括数据、数据混合方法、配方、代码、基础设施和评估框架在内的所有内容,这在开源后训练领域是一个重大突破。
Tülu 3模型通过四个阶段的后训练方法生成,包括数据整理、监督微调、偏好微调和具有可验证奖励的强化学习。Ai2在预训练语言模型的基础上,通过这些阶段结合了强化学习中的新算法改进、尖端基础设施和严格的实验,以便在各个训练阶段整理数据并优化数据组合、方法和参数。Tülu 3的主要贡献在于数据、方法、基础设施的改进和严格的评估。
Ai2还设计了一套评估框架,包括一个开放评估工具包、一套用于评估指令微调模型的核心技能的套件,以及一组推荐设置。Tülu 3在多个基准上表现出色,70B版本的平均性能甚至可与Claude 3.5 Haiku比肩。此外,Ai2提出了两个新的评估基准:IFEval-OOD和HREF,分别用于测试LLM遵从精确指令的能力和自动评估语言模型遵从指令的能力。在安全性方面,Tülu 3相较于其他开源模型也显示出优势。
总的来说,Tülu 3的发布和其后训练方案的开源,为大模型的后训练研究提供了宝贵的资源,有望推动社区在这一领域的进一步探索和发展。
原文和模型
【原文链接】 阅读原文 [ 2878字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆