
文章摘要
【关 键 词】 AI技术、模型评测、行业竞争、用户实测、功能特性
Grok-3的开放使用引发科技界广泛关注,其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型,Grok-3免费开放DeepSearch和Think两大模式,但在评测方法上遭到OpenAI研究员的公开质疑。Aidan McLaughlin指出其通过64个样本的多数投票机制提升评测分数,OpenAI应用研究主管Boris Power更直指该行为属于“欺骗性宣传”,并强调自家模型o3-mini在评估中表现更优。对此,xAI工程师Igor Babuschkin反驳称评测方法与OpenAI一致,双方技术路线的竞争持续白热化。
实测结果显示,Grok-3在特定场景下展现显著优势与局限。此前引发热议的“9.11与9.9比较”问题,普通模式下仍可能出错,但启用Think模式后4秒内即可纠正。值得注意的是,提问表述的细微调整(如“谁大”替换“哪个大”)会直接影响结果准确性,而Think模式在处理不同表述时响应时间差异悬殊,最长可达34秒。用户实测还发现,Grok-3在代码处理、长上下文理解及指令遵循方面表现突出,有开发者成功利用其快速生成视频游戏和3D模型,例如“激光火箭对抗美国政府”主题游戏仅耗时1小时完成。
图像生成能力成为另一亮点。Grok-3可输出照片级真实度的图像,包括羽毛细节清晰的鸟类特写、月球探测车等复杂场景,但在人体动态建模(如倒立姿势)仍存在缺陷。用户Min Choi展示的10个案例中,从纽约地铁自拍到文艺复兴风格肖像均展现强大生成能力,引发“真实性边界被突破”的讨论。学术测试方面,该模型在2024年MIT积分大赛中以1分02秒解题,速度超越人类选手及其他竞品,获得马斯克公开称赞。
语音功能的拓展预示着新方向。灰度测试中的高级语音模式支持自定义音色、实时转录及音频分享,默认提供Sal男声与Ara女声选项。演示视频显示,Grok-3不仅能完成语音交互,还可演唱生日歌并模拟笑声,界面设计包含静音、分享等实用功能。尽管存在部分生成瑕疵,用户普遍认为其上下文处理能力和多模态协同效率具有突破性价值。行业观察者指出,这场技术竞赛虽伴随争议,但客观上加速了AI应用场景的拓展与落地验证。
原文和模型
【原文链接】 阅读原文 [ 1180字 | 5分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-r1
【摘要评分】 ★☆☆☆☆