Grok3省流版:AI大佬Andrej Karpathy的真实点评

AIGC动态2天前发布 admin
640 0 0
Grok3省流版:AI大佬Andrej Karpathy的真实点评

 

文章摘要


【关 键 词】 AI模型性能评测技术对比功能分析行业动态

马斯克的AI初创公司xAI最新推出的大模型Grok3,经AI专家Andrej Karpathy两小时深度测试后,展现出与行业顶尖模型相抗衡的能力。在核心的思考模式测试中,Grok3成功解决了《卡坦岛拓荒者》六边形网格生成问题,其表现与OpenAI的o1-pro模型相当,优于DeepSeek-R1和Gemini 2.0 Flash Thinking。然而,该模型未能破解通过Unicode变体选择器隐藏信息的表情符号谜题,且在生成复杂井字棋棋盘时出现失误,与o1-pro模型同样受限于该挑战。

在技术推理领域,Grok3展示了独特的优势。当被要求估算GPT-2论文中的训练浮点运算次数时,该模型通过结合文本量估算、训练周期计算和参数运算推导,最终得出1e21次浮点运算的结论,而其他主流模型在此类需要综合能力的任务中表现欠佳。值得注意的是,Grok3对未解数学难题黎曼猜想的探索态度展现出与DeepSeek-R1相似的主动性,不同于多数模型直接放弃的常规反应。

深度搜索功能测试显示,Grok3在回答苹果发布会传闻、帕兰蒂尔股价波动等现实问题时,其信息整合能力接近Perplexity的深度研究功能,但存在引用来源不准确的问题。例如在生成大型语言模型实验室报告时遗漏xAI自身信息,并在处理《单身即地狱》演员动态等查询时出现事实性错误。相较于OpenAI最新研究功能,其可靠性仍有提升空间。

随机测试环节揭示了Grok3的差异化表现。该模型成功识别单词字母重复数量(如”strawberry”含3个r)、纠正数值比较错误(9.11>9.9),并正确解答家庭关系逻辑题,显示出基础推理能力的显著进步。但在幽默生成测试中仍受限于模式重复问题,伦理困境处理时表现出过度谨慎倾向,SVG图像生成质量也落后于Claude等针对性优化的模型。

综合评估显示,Grok3在核心推理能力上已达到OpenAI旗舰模型o1-pro的同等水平,尤其在需要多步骤逻辑推导的任务中表现突出。尽管在创意输出、复杂问题解决和信息准确性方面仍存在局限,但考虑到xAI团队仅用一年时间实现技术突破,其发展速度已打破行业常规。随着后续系统化评估的展开,该模型的真实性能边界将得到更精准的界定。

原文和模型


【原文链接】 阅读原文 [ 2310字 | 10分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...