标签:游戏智能体

Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场

加州大学圣迭戈分校Hao AI Lab通过开发游戏智能体评估框架,为大型语言模型的性能测试开辟了新路径。研究团队利用《超级马里奥》《2048》和《俄罗斯方块》等...