120亿Stable LM 2上线即开源！2万亿token训练，碾压Llama 2 70B

AIGC动态1年前 (2024)发布 AIera

2,411 0 0

120亿Stable LM 2上线即开源！2万亿token训练，碾压Llama 2 70B

文章摘要

【关键词】 Stable LM 2、性能评估、多语言支持、模型微调、参数升级

Stability AI最近推出了Stable LM 2 12B模型，这是其新模型系列的一个重要升级。该模型基于七种语言的2万亿Token进行训练，拥有120亿参数，性能在某些基准测试中甚至超越了Llama 2 70B模型。Stable LM 2 12B模型不仅参数更多，性能更强，而且还包含了基础模型和指令微调模型，能够在多种语言上运行，并且在多个基准测试中展现了出色的性能。

Stable LM 2 12B模型是一个高效的开源多语言模型，它能够在大多数常见硬件上流畅运行，并处理通常只有大模型才能完成的任务，如混合专家模型（MoE）。该模型的指令微调版本在工具使用和函数调用方面表现出色，适用于多种用途，包括作为检索RAG系统的核心部分。

在性能评估方面，Stable LM 2 12B与其他几个知名模型进行了比较，包括Mixtral、Llama2、Qwen 1.5、Gemma和Mistral。根据Open LLM Leaderboard和MT-Bench基准测试的结果，Stable LM 2 12B在零样本和少样本任务上表现优异。

模型的预训练阶段主要是学习如何利用大量不同的数据源来预测序列中的下一个token，这使得模型能够构建适用于基本语言功能甚至更高级的生成和理解任务的通用内部表示。Stable LM 2的训练采用了自回归序列建模方法，并受益于FlashAttention-2的高效序列并行优化。训练数据主要来源于公开数据，包括多种语言和代码数据。

在模型架构方面，Stable LM 2与LLaMA架构类似，但也有一些关键的区别，如位置嵌入、归一化和偏置的处理。此外，研究人员使用了Arcade100k分词器，这是一个专门为代码和数字拆分处理设计的BPE标记器。

模型微调包括有监督微调（SFT）和直接偏好优化（DPO）。研究人员在Hugging Face Hub上公开的一些指令数据集上进行了SFT，然后使用DPO进一步微调模型。

在实验结果和基准测试方面，Stable LM 2在少样本和零样本评估中表现出色，性能明显优于其他基础模型。在多语种评估中，Stable LM 2在多语言环境下的知识和推理能力方面也展现了出众的性能。

总体而言，Stable LM 2 12B模型的推出标志着Stability AI在AI语言模型领域的进一步进展，提供了一个强大而透明的工具，以推动AI语言技术的创新和发展。