Grok3省流版：AI大佬Andrej Karpathy的真实点评

AIGC动态1年前 (2025)发布 admin

3,349 0 0

文章摘要

马斯克的AI初创公司xAI最新推出的大模型Grok3，经AI专家Andrej Karpathy两小时深度测试后，展现出与行业顶尖模型相抗衡的能力。在核心的思考模式测试中，Grok3成功解决了《卡坦岛拓荒者》六边形网格生成问题，其表现与OpenAI的o1-pro模型相当，优于DeepSeek-R1和Gemini 2.0 Flash Thinking。然而，该模型未能破解通过Unicode变体选择器隐藏信息的表情符号谜题，且在生成复杂井字棋棋盘时出现失误，与o1-pro模型同样受限于该挑战。

在技术推理领域，Grok3展示了独特的优势。当被要求估算GPT-2论文中的训练浮点运算次数时，该模型通过结合文本量估算、训练周期计算和参数运算推导，最终得出1e21次浮点运算的结论，而其他主流模型在此类需要综合能力的任务中表现欠佳。值得注意的是，Grok3对未解数学难题黎曼猜想的探索态度展现出与DeepSeek-R1相似的主动性，不同于多数模型直接放弃的常规反应。

深度搜索功能测试显示，Grok3在回答苹果发布会传闻、帕兰蒂尔股价波动等现实问题时，其信息整合能力接近Perplexity的深度研究功能，但存在引用来源不准确的问题。例如在生成大型语言模型实验室报告时遗漏xAI自身信息，并在处理《单身即地狱》演员动态等查询时出现事实性错误。相较于OpenAI最新研究功能，其可靠性仍有提升空间。

随机测试环节揭示了Grok3的差异化表现。该模型成功识别单词字母重复数量（如”strawberry”含3个r）、纠正数值比较错误（9.11>9.9），并正确解答家庭关系逻辑题，显示出基础推理能力的显著进步。但在幽默生成测试中仍受限于模式重复问题，伦理困境处理时表现出过度谨慎倾向，SVG图像生成质量也落后于Claude等针对性优化的模型。

综合评估显示，Grok3在核心推理能力上已达到OpenAI旗舰模型o1-pro的同等水平，尤其在需要多步骤逻辑推导的任务中表现突出。尽管在创意输出、复杂问题解决和信息准确性方面仍存在局限，但考虑到xAI团队仅用一年时间实现技术突破，其发展速度已打破行业常规。随着后续系统化评估的展开，该模型的真实性能边界将得到更精准的界定。