作者信息
【原文作者】 努力犯错玩AI
【作者简介】 为AI开发者打造HuggingFace国内镜像站,提供最新流行开源模型资讯并免费加速下载。更多内容请访问https://aifasthub.com
【微 信 号】 gh_7709874d3358
文章摘要
【关 键 词】 轻量、编程辅助、模型、Stable Code 3B、创新性能
摘要:
在最新发布的Stable Code 3B中,Stability AI推出了一款集成了多项创新技术的轻量级编程辅助模型。该模型不仅在保持轻量的同时展现出与大型模型相媲美的性能,还可以在没有GPU支持的环境下运行,大大拓宽了其应用范围。
Stable Code 3B拥有30亿参数,其核心特点是可以在笔记本电脑上本地运行,无需专用GPU支持。相比于大型模型如CodeLLaMA 7B,Stable Code 3B在体积上缩减了60%,但在多种编程任务上展现出了可比拟的性能。该模型的训练过程采用了先进的技术和策略,基于Stable LM 3B训练,训练token数量高达4万亿,并使用了软件工程中的特定数据进行训练,以提高精准度。
在模型架构方面,Stable Code 3B采用了纯解码器的transformer架构,应用了一些关键的调整,如旋转位置嵌入和GPTNeoX Tokenizer的改进版本。训练集由多个开源大规模数据集组成,训练过程在Stability AI的集群上进行,使用了256个NVIDIA A100 40GB GPU,并结合了多项技术如flash-attention、SwiGLU等。
在性能方面,Stable Code 3B在MultiPL-E基准上取得了SOTA的性能,尤其在Python、C++、JavaScript等多种编程语言上展现出卓越性能。这一成就得益于其训练过程中采用的创新技术和优化策略。总体而言,Stable Code 3B的推出标志着编程辅助领域的重大突破,为未来轻量级模型在AI领域的崛起奠定了坚实基础。
原文信息
【原文链接】 阅读原文
【原文字数】 825
【阅读时长】 3分钟