马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

AIGC动态2年前 (2024)发布 almosthuman2014

2,613 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

马斯克旗下的大模型公司xAI宣布正式开源了3140亿参数的混合专家（MoE）模型「Grok-1」，这是目前参数量最大的开源大语言模型。Grok-1模型从头开始训练，没有针对任何特定应用进行微调，其基础模型基于大量文本数据进行训练。该模型的权重和网络架构遵循Apache 2.0许可证开源，允许用户自由地使用、修改和分发软件。

Grok-1的模型细节包括：3140亿参数的MoE模型，在给定token上的激活权重为25%；使用JAX库和Rust语言组成的自定义训练堆栈从头开始训练。项目发布四个小时后，已获得3.4k星标。项目地址为https://github.com/xai-org/grok-1，包含用于加载和运行Grok-1开放权重模型的JAX示例代码。由于Grok-1模型较大，需要有足够的GPU内存的机器才能使用示例代码测试模型。

Grok-1是由8个专家的混合（2个活跃）组成的模型，拥有860亿激活参数，使用旋转嵌入而非固定位置嵌入。其tokenizer词汇大小为131,072，嵌入大小为6,144，具有64个transformer层，每层都有一个解码器层：多头注意力块和密集块，键值大小为128。多头注意力块具有48个头用于查询，8个头用于键/值（KV），KV大小为128。密集块（密集前馈块）具有加宽因子8，隐藏层大小32,768。每个token从8个专家中选择2个。旋转位置嵌入大小为6144，与输入嵌入大小相同。上下文长度为8192 tokens，精度为bf16。此外，还提供了一些权重的8bit量化内容。

Grok是xAI团队于去年11月推出的大型语言模型，旨在回答各种问题并提供建议。Grok-1的研发经历了四个月，期间经历了多次迭代。Grok-1在HumanEval编码任务中达到了63.2%的成绩，在MMLU中达到了73%。在一系列推理基准任务和国外数学考试试题中，Grok-1显示出强劲的性能，超过了其计算类中的所有其他模型，包括ChatGPT-3.5和Inflection-1。然而，只有像GPT-4这样使用大量训练数据和计算资源训练的模型才能超越它。

Grok-1的预期用途包括问答、信息检索、创意写作和编码辅助等自然语言处理任务。尽管Grok-1在信息处理方面表现出色，但让人类检查Grok-1的工作以确保准确性至关重要。Grok-1不具备独立搜索网络的能力，但可以访问外部信息源。训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据。

xAI希望通过Grok创造一些AI工具，帮助人类寻求理解和知识。他们的目标是收集反馈，确保AI工具能够最大限度地造福全人类，并增强研究和创新能力。在X平台上，Grok-1的开源已经引发了不少讨论，技术社区指出模型在前馈层中使用了GeGLU，并采用了sandwich norm技术进行归一化。尽管开源版Grok目前还无法实现实时了解世界的功能，但仍有技术人员期待后续版本的开源。