浙大&中科院让Agent学会自我进化，玩德州扑克心机尽显

AI-Agent2年前 (2024)发布 QbitAI

918 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 Agent-Pro、智能体、进化策略、多智能体博弈、AIGC

浙江大学和中科院软件所的研究人员开发了一种新的Agent进化策略，创建了一个能够玩德州扑克的智能体Agent-Pro。Agent-Pro基于大型模型，通过自我优化的提示（Prompt）来构建游戏世界模型和行为策略，能够掌握虚张声势和主动放弃等高阶游戏策略。与传统Agent相比，Agent-Pro能够灵活应对复杂动态环境，并可通过与环境互动优化行为以实现目标。

在21点和有限注德州扑克两款游戏中，Agent-Pro的表现超过了ReAct框架和其他Agents框架。它通过分析自我信念（Self-Belief）和对外部世界的信念（World-Belief）来做出决策，并在游戏中不断更新信念以适应环境变化。Agent-Pro还通过策略层面的反思（Policy-Level Reflection）和世界模型及行为准则的优化来提高表现。

Agent-Pro的学习和进化包括三个组件：基于信念的决策、策略层面的反思和世界模型与行为策略的优化。它使用深度优先搜索（DFS）和策略评估来持续优化世界模型和行为准则。Agent-Pro的研究为解决现实世界中的多智能体博弈任务提供了有效策略，如竞争、公司谈判和安全等情景。

论文和相关代码已公开，可通过提供的链接访问。同时，量子位正在进行2024年最值得关注的AIGC企业与产品的评选活动，详情可关注公众号QbitAI获取。