文章摘要
【关 键 词】 Stability AI、代码模型、Stable Code Instruct 3B、模型训练、模型性能
Stability AI近期发布了新的代码模型Stable Code Instruct 3B,尽管公司内部发生了一些变动,如首席执行官辞职,部分作者离职,投资公司出现故障,但这并未影响其研发进程。新模型在之前的基础上做了指令调优,能够处理各种任务,例如代码生成、数学和其他与软件开发相关的查询。
Stable Code Instruct 3B在同等参数量的模型中,做到了当前的SOTA,甚至优于比自己大两倍多的CodeLlama 7B Instruct等模型,并且在软件工程相关任务中的表现与StarChat 15B相当。测试表明,Stable Code Instruct 3B在代码完成准确性、对自然语言指令的理解、以及跨不同编程语言的多功能性方面,都能够打平甚至超越竞争对手。
Stable Code Instruct 3B建立在Stable LM 3B之上,是一个decoder-only Transformer结构,设计类似于LLaMA。训练数据集收集了各种可公开访问的大规模数据源,包括代码存储库、技术文档(如readthedocs)、以数学为重点的文本,和大量Web数据集。训练过程中,采用了一种分阶段的训练方法,训练按照标准的自回归序列建模预测下一个标记。
在预训练之后,作者通过微调阶段进一步提高模型的对话技能,该阶段包括监督微调(SFT)和直接偏好优化(DPO)。首先使用在Hugging Face上公开可用的数据集进行SFT微调:包括OpenHermes,Code Feedback,CodeAlpaca。在SFT之后,开始DPO阶段,利用来自UltraFeedback的数据,策划了一个包含大约7,000个样本的数据集。
在性能测试中,Stable Code Instruct 3B在各种编程语言中的平均性能与Code Llama和StarCoder 15B持平。在数据库查询任务中,Stable Code Instruct的性能与其他流行的指令调优模型,和专门为SQL训练的模型进行比较。推理性能测试表明,当采用较低的精度时,吞吐量增加了近两倍。
原文和模型
【原文链接】 阅读原文 [ 2240字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★