苹果开源7B大模型，训练过程数据集一口气全给了，网友：开放得不像苹果

AIGC动态1年前 (2024)发布 QbitAI

3,320 0 0

文章摘要

苹果公司近日在开源大模型领域取得了重大进展，推出了一款7B参数的模型，其性能与Llama 3 8B相当，且一次性开源了全部训练过程和资源。这一举措受到了业界的高度评价，被认为是对Nature杂志编辑Elizabeth Gibney批评的回应，她曾指出许多声称开源的AI模型在数据和训练方法上并不透明，无法满足真正的科学研究需求。

苹果的7B模型在开放数据集上使用了2.5T tokens进行训练，主要是英文数据，拥有2048 tokens的上下文窗口。其数据集包括DCLM-BASELINE、StarCoder和ProofPile2，MMLU得分接近Llama 3 8B。研究团队提出了一个新的语言模型数据比较新基准——DCLM，使用DCLM设计高质量数据集以提高模型性能，尤其是在多模态领域。

DCLM-7B模型在MMLU基准上5-shot准确率达到64%，与Mistral-7B-v0.3（63%）和Llama 3 8B（66%）相媲美。在53个自然语言理解任务上的平均表现也可与Llama 3 8B相媲美，但所需计算量仅为后者的1/6。与其他同等大小模型相比，DCLM-7B的MMLU得分超越了Mistral-7B，接近Llama 3 8B。

此外，为了测试新数据集的效果，业内人士使用卡帕西的llm.c训练了GPT-2 1.5B，比较了DCLM-Baseline与FineWeb-Edu这两个数据集。结果显示，DCLM-Baseline取得了更高的平均分，并在ARC（小学生科学问题推理）、HellaSwag（常识推理）、MMLU等任务上表现更好。

近期，小模型已成为新趋势。HuggingFace推出了小模型家族“SmolLM”，包含135M、360M和1.7B型号模型，它们在广泛的推理和常识基准上优于类似大小的模型。OpenAI发布了GPT-4o mini，能力接近GPT-4，但价格大幅下降。Mistral AI联合英伟达发布了12B参数小模型Mistral NeMo，在多项基准测试中击败了Gemma 2 9B和Llama 3 8B。

小模型之所以受到关注，是因为它们在能力相近的情况下，大大降低了成本。smol AI创始人提醒，虽然模型变小了，但成本效益比更高。这一趋势表明，未来AI领域可能会更加注重模型的效率和成本效益。

苹果的DCLM-7B模型的开源地址为：https://huggingface.co/apple/DCLM-7B，GitHub地址为：https://github.com/mlfoundations/dclm，数据集地址为：https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0。这些资源的开源为研究人员和开发者提供了宝贵的学习和研究机会，有助于推动AI领域的发展。