马斯克官宣Grok-1.5！超GPT-4 16倍上下文，推理能力超DBRX，网友：赢在敢说！

AIGC动态2年前 (2024)发布 ai-front

3,003 0 0

马斯克官宣Grok-1.5！超GPT-4 16倍上下文，推理能力超DBRX，网友：赢在敢说！

文章摘要

马斯克最新发布的人工智能模型Grok-1.5，以其卓越的编码与数学处理能力、深入的上下文理解以及精准的长文本检索能力，引起了业界的广泛关注。Grok-1.5是Grok系列的最新版本，预计将在未来几天向早期测试者和X平台的现有用户开放。

Grok-1.5的最大亮点在于其强大的编码与数学相关任务性能。在MATH和GSM8k两项数学基准测试中，Grok-1.5分别取得了50.6%和90%的得分，这两项测试涵盖了从小学到高中的各类竞赛问题。此外，Grok-1.5在评估代码生成与问题解决能力的HumanEval基准测试中得分为74.1%。

Grok-1.5还具有处理多达128K个tokens的长上下文理解能力，这使得Grok的记忆容量增加至前代上下文长度的16倍，因此能够消化大部头文档中的信息。在Needle In A Haystack (NIAH)评估中，Grok-1.5展示出强大的检索能力，可以在多达128K tokens的长上下文中嵌入文本，实现完美的检索结果。

Grok-1.5的训练基础设施是基于JAX、Rust和Kubernetes的自定义分布式训练框架，这套训练堆栈使Grok团队能够以最小的投入建立起设计原型，并大规模训练新型架构。为了提高训练作业的可靠性与正常运行时间，Grok团队自定义训练的协调器能够自动检测到有问题的节点，并将其从训练作业中剔除。

在开源大模型市场的竞争中，Grok-1.5的表现也十分亮眼。相较于“最强”开源大模型DBRX，Grok-1.5在MMLU、HumanEval和GSM8k三项测试中的得分均领先，而且在长文本上，Grok-1.5的处理能力远超于DBRX。

对于Grok-1.5的发布，开发者们表现出了热切的期待。有网友表示，Grok-1.5的测试图表给人留下深刻印象，它在信息检索方面的表现与Claude-3-Opus和GPT-4-Turbo相媲美。同时，马斯克曾表示，X平台将向更多用户开放Grok聊天机器人的访问权限，特别是对于那些已经订阅了每月8美元高级计划的用户。

总的来说，Grok-1.5的发布无疑为人工智能领域带来了新的挑战和机遇。虽然目前还无法确定哪个模型将在未来占据领先地位，但我们正处在人工智能发展的黄金时代，这是一段值得期待的旅程。