马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载
 

文章摘要


【关 键 词】 Grok-1开源AI模型自然语言处理xAI

马斯克旗下的大模型公司xAI宣布正式开源了3140亿参数的混合专家(MoE)模型「Grok-1」,这是目前参数量最大的开源大语言模型。Grok-1模型从头开始训练,没有针对任何特定应用进行微调,其基础模型基于大量文本数据进行训练。该模型的权重和网络架构遵循Apache 2.0许可证开源,允许用户自由地使用、修改和分发软件。

Grok-1的模型细节包括:3140亿参数的MoE模型,在给定token上的激活权重为25%;使用JAX库和Rust语言组成的自定义训练堆栈从头开始训练。项目发布四个小时后,已获得3.4k星标。项目地址为https://github.com/xai-org/grok-1,包含用于加载和运行Grok-1开放权重模型的JAX示例代码。由于Grok-1模型较大,需要有足够的GPU内存的机器才能使用示例代码测试模型。

Grok-1是由8个专家的混合(2个活跃)组成的模型,拥有860亿激活参数,使用旋转嵌入而非固定位置嵌入。其tokenizer词汇大小为131,072,嵌入大小为6,144,具有64个transformer层,每层都有一个解码器层:多头注意力块和密集块,键值大小为128。多头注意力块具有48个头用于查询,8个头用于键/值(KV),KV大小为128。密集块(密集前馈块)具有加宽因子8,隐藏层大小32,768。每个token从8个专家中选择2个。旋转位置嵌入大小为6144,与输入嵌入大小相同。上下文长度为8192 tokens,精度为bf16。此外,还提供了一些权重的8bit量化内容。

Grok是xAI团队于去年11月推出的大型语言模型,旨在回答各种问题并提供建议。Grok-1的研发经历了四个月,期间经历了多次迭代。Grok-1在HumanEval编码任务中达到了63.2%的成绩,在MMLU中达到了73%。在一系列推理基准任务和国外数学考试试题中,Grok-1显示出强劲的性能,超过了其计算类中的所有其他模型,包括ChatGPT-3.5和Inflection-1。然而,只有像GPT-4这样使用大量训练数据和计算资源训练的模型才能超越它。

Grok-1的预期用途包括问答、信息检索、创意写作和编码辅助等自然语言处理任务。尽管Grok-1在信息处理方面表现出色,但让人类检查Grok-1的工作以确保准确性至关重要。Grok-1不具备独立搜索网络的能力,但可以访问外部信息源。训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据。

xAI希望通过Grok创造一些AI工具,帮助人类寻求理解和知识。他们的目标是收集反馈,确保AI工具能够最大限度地造福全人类,并增强研究和创新能力。在X平台上,Grok-1的开源已经引发了不少讨论,技术社区指出模型在前馈层中使用了GeGLU,并采用了sandwich norm技术进行归一化。尽管开源版Grok目前还无法实现实时了解世界的功能,但仍有技术人员期待后续版本的开源。

原文信息


【原文链接】 阅读原文
【阅读预估】 2642 / 11分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...