OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

AIGC动态5个月前发布 AIera
975 0 0
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源

 

文章摘要


【关 键 词】 人工智能小模型开源性能突破DCLM

近期,人工智能领域出现了小模型的热潮。OpenAI推出了GPT-4o mini,Mistral AI与英伟达合作发布了Mistral NeMo,而苹果公司也加入了这一竞争,发布了包含70亿和14亿参数的DCLM小模型,并立即开源。这些小模型的发布,不仅在性能上有所突破,更在开源方面树立了新的标杆。

苹果的DCLM小模型在性能上接近Llama 3和Gemma,且在HuggingFace上已经发布了全部模型权重。DCLM-7B模型采用了decoder-only架构,使用PyTorch和OpenLM框架进行预训练。在上下文长度为2048的情况下,DCLM在53个基准任务上的评估表现优异,尤其在核心准确率和扩展准确率上均达到了最佳。此外,DCLM-7B在5-shot的MMLU任务准确率上比之前的SOTA MAP-Neo模型提升了6.6个百分点,同时训练所需的计算量减少了40%。

值得注意的是,DCLM-1B模型在性能上也表现突出,尤其在5-shot MMLU分数上比SmolLM提升了11.9%。DCLM-1B的训练数据量比7B版本多0.1T,且在Apache 2.0下发布,允许商业使用、分发和修改。

DCLM系列模型的成功,离不开其重要基础——DataComp基准。DataComp论文详细阐述了数据集的构建过程,并提到了DCLM模型的部分内容。Vaishaal Shankar表示,将很快发布论文的更新版,提供更多有关模型预训练的技术细节。

在AI科技巨头中,小模型的优势在于成本低、速度快、更专业。它们通常只使用少量数据训练,为特定任务而设计。当前的LLM之所以逐渐变成“巨兽”,是因为训练过程仍然非常浪费。但对于小模型来说,训练目标已经改变,关键问题是AI系统如何从更少的数据中学到更多。这需要模型先变得更大,再变得更小,因为我们需要“巨兽”将数据重构、塑造为理想的合成形式,逐渐得到“完美的训练集”,再喂给小模型。

尽管小模型在某些任务上表现出色,但科技巨头们并没有放弃大模型。苹果在今年WWDC大会上,曾宣布了在Siri助手中植入ChatGPT,以执行撰写电子邮件等复杂任务。毕竟,通往终极AGI/ASI,参数规模的扩大和智能的增长成正比。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2072字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...