大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B

AIGC动态1年前 (2024)发布 AIera

2,091 0 0

大佬出走后首个发布！Stability官宣代码模型Stable Code Instruct 3B

文章摘要

【关键词】 Stability AI、代码模型、Stable Code Instruct 3B、模型训练、模型性能

Stability AI近期发布了新的代码模型Stable Code Instruct 3B，尽管公司内部发生了一些变动，如首席执行官辞职，部分作者离职，投资公司出现故障，但这并未影响其研发进程。新模型在之前的基础上做了指令调优，能够处理各种任务，例如代码生成、数学和其他与软件开发相关的查询。

Stable Code Instruct 3B在同等参数量的模型中，做到了当前的SOTA，甚至优于比自己大两倍多的CodeLlama 7B Instruct等模型，并且在软件工程相关任务中的表现与StarChat 15B相当。测试表明，Stable Code Instruct 3B在代码完成准确性、对自然语言指令的理解、以及跨不同编程语言的多功能性方面，都能够打平甚至超越竞争对手。

Stable Code Instruct 3B建立在Stable LM 3B之上，是一个decoder-only Transformer结构，设计类似于LLaMA。训练数据集收集了各种可公开访问的大规模数据源，包括代码存储库、技术文档（如readthedocs）、以数学为重点的文本，和大量Web数据集。训练过程中，采用了一种分阶段的训练方法，训练按照标准的自回归序列建模预测下一个标记。

在预训练之后，作者通过微调阶段进一步提高模型的对话技能，该阶段包括监督微调（SFT）和直接偏好优化（DPO）。首先使用在Hugging Face上公开可用的数据集进行SFT微调：包括OpenHermes，Code Feedback，CodeAlpaca。在SFT之后，开始DPO阶段，利用来自UltraFeedback的数据，策划了一个包含大约7,000个样本的数据集。

在性能测试中，Stable Code Instruct 3B在各种编程语言中的平均性能与Code Llama和StarCoder 15B持平。在数据库查询任务中，Stable Code Instruct的性能与其他流行的指令调优模型，和专门为SQL训练的模型进行比较。推理性能测试表明，当采用较低的精度时，吞吐量增加了近两倍。