下棋比智商！8 大 AI 模型上演棋盘大战，谁能称王？

40 0 0

文章摘要

Kaggle 与 Google DeepMind 合作推出 Kaggle Game Arena，这是一个通过战略类游戏对人工智能模型进行对战评测的平台。

该平台提供受控环境，让不同模型直接对战。每场比赛严格遵循所选游戏规则，系统记录结果并形成排行榜。为确保评测公平，采用全对全赛制，即每个模型多次与其他所有模型对战，减少随机因素干扰，使结果更具统计可靠性。

Game Arena 依赖开源组件，其游戏运行环境、规则执行及模型对接等控制模块全面开源，方便开发者和研究人员检查、复现或扩展。

首批参赛的八个主流 AI 模型包括 Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek – R1 等。与其他集中在语言任务、图像分类或编程挑战的 AI 测评平台不同，Kaggle Game Arena 聚焦“在规则与约束下的决策力”，国际象棋及未来将上线的其他游戏，突出推理、规划与对抗适应性，为以静态输出为主的排行榜增添新维度。

研究人员认为这类基准测试有助于发现 AI 系统在传统数据集之外的优劣。有人觉得游戏是开放、可反复验证的手段，但也有人提醒受控环境不能完全还原真实世界的复杂决策。

多位业内人士表达了对该平台的期待。AI 爱好者 Sebastian Zabala 认为国际象棋是完美开局，期待顶级 AI 在实战对抗中的表现；AI 布道者 Koho Okada 称这可能改写评估 AI 智能的方式；Kaggle 用户 Sourabh Joshi 认为该平台是测试泛化性、效率和推理力的理想战场。

Kaggle 与 DeepMind 表示，平台不会局限于国际象棋，未来将扩展到卡牌游戏和数字游戏等，测试 AI 在战略推理中的不同能力。通过标准化对战机制，Kaggle Game Arena 为评估 AI 模型开辟新基准，关注模型在竞争环境中的决策能力。