
文章摘要
【关 键 词】 AI、基准测试、创意评测、Minecraft、能力评估
AI模型在复杂基准测试中表现出色,却在简单问题上频频出错,这种反差促使创意评测的兴起。例如,高中生Adi Singh开发的MC-Bench利用Minecraft的“竞技场”模式,通过用户投票来评估AI模型的文本理解和编码能力。这种评测方式不仅直观,还让普通人能够轻松参与,像“选美”一样简单直接。MC-Bench的合作开发团队包括提示词创意官、技术主管和开发者,并获得了Anthropic、Google和阿里巴巴等公司的技术支持。目前,Claude3.7在MC-Bench榜单上暂时领先,而DeepSeek-R1位列第5,尽管后者发布时间较晚,但Claude3.7、GPT-4.5和Gemini2.0等“新一代”模型的表现值得期待。
传统AI基准测试的局限性逐渐显现,主要体现在过拟合、任务狭窄、缺乏真实环境和难以衡量通用性等方面。这些测试往往基于特定类型的任务设计,无法有效反映现实世界中问题的开放性和不确定性。因此,AI开发者正在转向更有创意的方法来评估生成式AI模型的能力。MC-Bench的本质是通过类似Chatbot Arena的方式进行模型评比,测试AI模型的文本理解和编码能力。Adi Singh认为,游戏作为一种测试媒介,比现实生活更安全,也更适合测试目的。
游戏测评AI似乎成为主流创意,Claude 3.7 Sonnet通过操控《宝可梦》游戏来评测新模型的“思考”能力。Claude配备了特定“按钮”来操控游戏,并在Twitch上直播了其学习、思考和采取行动的全过程。无论是传统基准测试还是创意测试,目前对于生成式AI的能力评测依然没有一个“一劳永逸”的标准。传统基准测试的评估结果多采用单一的客观分数,忽视了人类实际感受和主观评价的维度。在生成式AI中,美学感知、创造力、直观性往往更加重要,但这些因素很难在传统的标准化测试中体现出来。
类似MC-Bench这样的创意评测可能会给未来的AI评测带来新的“范式”,并加速推动AI的发展。社区成员对MC-Bench的评价很高,例如OpenAI的基础研究员Aidan McLaughlin认为,MC-Bench测试了真正关心的功能,甚至可以辨别顶级型号之间的性能差异。新的AI评测“范式”也许会加速推动AI的发展,为生成式AI的能力评估提供更全面和直观的视角。
原文和模型
【原文链接】 阅读原文 [ 1516字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆