反超 DeepSeek？马斯克「钞能力」砸出来的 Grok 3 终于上线了

1,861 0 0

文章摘要

马斯克旗下xAI团队于2025年2月18日正式发布Grok 3模型，宣称其通过20万张英伟达H100 GPU集群实现了计算资源的十倍扩容。Colossus超级计算机仅用八个月完成搭建，初期10万GPU集群建设耗时122天，后续扩展至20万GPU仅增加92天。这种规模的算力投入使Grok 3训练效率显著提升，处理庞大数据集的时间大幅缩短。

性能测试数据显示，Grok 3在MMLU基准测试中快速超越ChatGPT，其衍生版本Grok-3 Reasoning Beta在数学、科学和编程领域全面领先GPT-4、Claude 3.5 Sonnet等主流模型。LMSYS大模型竞技场排名显示，Grok-3及其mini版本在多项指标上均占据首位，Imarena.ai官方确认其成为首个突破1400分里程碑的AI模型。现场演示环节中，Grok 3成功生成可直接运行的太空发射3D动画代码，并在数分钟内设计出俄罗斯方块与宝石迷阵的混合游戏原型。

团队同步推出基于Grok 3的搜索引擎DeepSearch，该系统具备意图推测与多源信息交叉验证能力。演示案例显示，DeepSearch不仅能检索现有资料，还能通过逻辑推理整合碎片化信息，提供经过验证的精准答案。该功能被视作对传统搜索引擎的技术革新。

行业专家测试反馈呈现分化态势。AI研究者卡帕西指出，Grok 3在解决《卡坦岛》风格游戏设计等复杂任务时表现卓越，甚至尝试攻克黎曼假设等数学难题，但在幽默生成和伦理问题处理上仍存在缺陷。部分用户实测发现，模型偶尔会产生事实性错误或虚构URL，编程能力也未达预期水平。尽管如此，多数评测认为其整体性能已接近OpenAI的o1-pro模型，并在物理问题处理方面树立新标杆。

目前Grok 3优先向X平台Premium+订阅用户开放，普通用户接入时间尚未明确。业界关注焦点集中于该模型大规模开放后，能否维持当前的技术优势，以及算力投入与性能提升的边际效益问题。随着20万GPU集群带来的计算革命，AI大模型竞争正式进入超大规模资源投入的新阶段。