大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

2,037 0 0

文章摘要

最近，一种新的测试基准在人工智能领域引起了广泛关注，即让大型AI模型参与“你画我猜”游戏。在这个游戏中，一个模型负责画画，其他模型则根据生成的内容猜测答案。参与的模型包括GPT-4o、Claude、Llama、Gemini和Grok等。结果显示，Claude在6局游戏中赢了3次，表现最佳，而GPT-4o的表现则较为抽象，其画的龙卷风连人类也难以理解。

在简单题目上，如房子、草地和海洋，所有模型都能迅速猜对答案。但在动物主题上，如大象，模型们通常需要4-5轮才能猜对。这个游戏不仅效果出色，也受到了网友的广泛好评。

这个游戏的灵感来源于Simon Willison的一次测试，他让所有模型绘制“自行车上有一只鹈鹕”的图像进行效果对比。Paul Calcraft看到后，提出了让大模型玩你画我猜的想法，并迅速发布了游戏的0.0.1版。在游戏中，回答的模型每2秒猜测一次，回答更快的模型会更快返回答案。

网友对这个游戏的评价褒贬不一。有人认为它可能成为新的视觉基准，有人提出了优化建议，如以答对题目的速度作为评分准则，或加入人类成绩作为参考。还有人提议将游戏变成对抗式训练，以加速大模型的进步。不过，也有网友不理解这个项目的意义，认为它只是未来AI考古时的文物。

尽管如此，游戏化学习在教育理论和心理学中占有重要地位，小孩子也是通过玩游戏来提升智力、学习技能的。或许这可以成为训练大模型的新方式。虽然这次只有6轮游戏，参与的模型也有限，但确实是一次有趣的实践。作者Paul Calcraft表示会继续更新这个游戏，包括分数显示、更多的游戏主题等，值得期待后续发展。