大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

AIGC动态3周前发布 QbitAI
141 0 0
大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

 

文章摘要


【关 键 词】 AI游戏你画我猜模型竞赛视觉基准教育游戏

最近,一种新的测试基准在人工智能领域引起了广泛关注,即让大型AI模型参与“你画我猜”游戏。在这个游戏中,一个模型负责画画,其他模型则根据生成的内容猜测答案。参与的模型包括GPT-4o、Claude、Llama、Gemini和Grok等。结果显示,Claude在6局游戏中赢了3次,表现最佳,而GPT-4o的表现则较为抽象,其画的龙卷风连人类也难以理解。

在简单题目上,如房子、草地和海洋,所有模型都能迅速猜对答案。但在动物主题上,如大象,模型们通常需要4-5轮才能猜对。这个游戏不仅效果出色,也受到了网友的广泛好评。

这个游戏的灵感来源于Simon Willison的一次测试,他让所有模型绘制“自行车上有一只鹈鹕”的图像进行效果对比。Paul Calcraft看到后,提出了让大模型玩你画我猜的想法,并迅速发布了游戏的0.0.1版。在游戏中,回答的模型每2秒猜测一次,回答更快的模型会更快返回答案。

网友对这个游戏的评价褒贬不一。有人认为它可能成为新的视觉基准,有人提出了优化建议,如以答对题目的速度作为评分准则,或加入人类成绩作为参考。还有人提议将游戏变成对抗式训练,以加速大模型的进步。不过,也有网友不理解这个项目的意义,认为它只是未来AI考古时的文物。

尽管如此,游戏化学习在教育理论和心理学中占有重要地位,小孩子也是通过玩游戏来提升智力、学习技能的。或许这可以成为训练大模型的新方式。虽然这次只有6轮游戏,参与的模型也有限,但确实是一次有趣的实践。作者Paul Calcraft表示会继续更新这个游戏,包括分数显示、更多的游戏主题等,值得期待后续发展。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 866字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...