突发，Grok-3免费上线！答对9.11和9.9谁大，1分攻克MIT积分难题

2,134 0 0

文章摘要

Grok-3的开放使用引发科技界广泛关注，其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型，Grok-3免费开放DeepSearch和Think两大模式，但在评测方法上遭到OpenAI研究员的公开质疑。Aidan McLaughlin指出其通过64个样本的多数投票机制提升评测分数，OpenAI应用研究主管Boris Power更直指该行为属于“欺骗性宣传”，并强调自家模型o3-mini在评估中表现更优。对此，xAI工程师Igor Babuschkin反驳称评测方法与OpenAI一致，双方技术路线的竞争持续白热化。

实测结果显示，Grok-3在特定场景下展现显著优势与局限。此前引发热议的“9.11与9.9比较”问题，普通模式下仍可能出错，但启用Think模式后4秒内即可纠正。值得注意的是，提问表述的细微调整（如“谁大”替换“哪个大”）会直接影响结果准确性，而Think模式在处理不同表述时响应时间差异悬殊，最长可达34秒。用户实测还发现，Grok-3在代码处理、长上下文理解及指令遵循方面表现突出，有开发者成功利用其快速生成视频游戏和3D模型，例如“激光火箭对抗美国政府”主题游戏仅耗时1小时完成。

图像生成能力成为另一亮点。Grok-3可输出照片级真实度的图像，包括羽毛细节清晰的鸟类特写、月球探测车等复杂场景，但在人体动态建模（如倒立姿势）仍存在缺陷。用户Min Choi展示的10个案例中，从纽约地铁自拍到文艺复兴风格肖像均展现强大生成能力，引发“真实性边界被突破”的讨论。学术测试方面，该模型在2024年MIT积分大赛中以1分02秒解题，速度超越人类选手及其他竞品，获得马斯克公开称赞。

语音功能的拓展预示着新方向。灰度测试中的高级语音模式支持自定义音色、实时转录及音频分享，默认提供Sal男声与Ara女声选项。演示视频显示，Grok-3不仅能完成语音交互，还可演唱生日歌并模拟笑声，界面设计包含静音、分享等实用功能。尽管存在部分生成瑕疵，用户普遍认为其上下文处理能力和多模态协同效率具有突破性价值。行业观察者指出，这场技术竞赛虽伴随争议，但客观上加速了AI应用场景的拓展与落地验证。