文章摘要
【关 键 词】 开源模型、AI研究、性能比较、小模型趋势、成本效益
苹果公司近日在开源大模型领域取得了重大进展,推出了一款7B参数的模型,其性能与Llama 3 8B相当,且一次性开源了全部训练过程和资源。这一举措受到了业界的高度评价,被认为是对Nature杂志编辑Elizabeth Gibney批评的回应,她曾指出许多声称开源的AI模型在数据和训练方法上并不透明,无法满足真正的科学研究需求。
苹果的7B模型在开放数据集上使用了2.5T tokens进行训练,主要是英文数据,拥有2048 tokens的上下文窗口。其数据集包括DCLM-BASELINE、StarCoder和ProofPile2,MMLU得分接近Llama 3 8B。研究团队提出了一个新的语言模型数据比较新基准——DCLM,使用DCLM设计高质量数据集以提高模型性能,尤其是在多模态领域。
DCLM-7B模型在MMLU基准上5-shot准确率达到64%,与Mistral-7B-v0.3(63%)和Llama 3 8B(66%)相媲美。在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美,但所需计算量仅为后者的1/6。与其他同等大小模型相比,DCLM-7B的MMLU得分超越了Mistral-7B,接近Llama 3 8B。
此外,为了测试新数据集的效果,业内人士使用卡帕西的llm.c训练了GPT-2 1.5B,比较了DCLM-Baseline与FineWeb-Edu这两个数据集。结果显示,DCLM-Baseline取得了更高的平均分,并在ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU等任务上表现更好。
近期,小模型已成为新趋势。HuggingFace推出了小模型家族“SmolLM”,包含135M、360M和1.7B型号模型,它们在广泛的推理和常识基准上优于类似大小的模型。OpenAI发布了GPT-4o mini,能力接近GPT-4,但价格大幅下降。Mistral AI联合英伟达发布了12B参数小模型Mistral NeMo,在多项基准测试中击败了Gemma 2 9B和Llama 3 8B。
小模型之所以受到关注,是因为它们在能力相近的情况下,大大降低了成本。smol AI创始人提醒,虽然模型变小了,但成本效益比更高。这一趋势表明,未来AI领域可能会更加注重模型的效率和成本效益。
苹果的DCLM-7B模型的开源地址为:https://huggingface.co/apple/DCLM-7B,GitHub地址为:https://github.com/mlfoundations/dclm,数据集地址为:https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0。这些资源的开源为研究人员和开发者提供了宝贵的学习和研究机会,有助于推动AI领域的发展。
原文和模型
【原文链接】 阅读原文 [ 1020字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆