浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显

AI-Agent9个月前发布 QbitAI
422 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显
 

文章摘要


【关 键 词】 Agent-Pro智能体进化策略多智能体博弈AIGC

浙江大学中科院软件所的研究人员开发了一种新的Agent进化策略,创建了一个能够玩德州扑克的智能体Agent-Pro。Agent-Pro基于大型模型,通过自我优化的提示(Prompt)来构建游戏世界模型和行为策略,能够掌握虚张声势和主动放弃等高阶游戏策略。与传统Agent相比,Agent-Pro能够灵活应对复杂动态环境,并可通过与环境互动优化行为以实现目标。

在21点和有限注德州扑克两款游戏中,Agent-Pro的表现超过了ReAct框架和其他Agents框架。它通过分析自我信念(Self-Belief)和对外部世界的信念(World-Belief)来做出决策,并在游戏中不断更新信念以适应环境变化。Agent-Pro还通过策略层面的反思(Policy-Level Reflection)和世界模型及行为准则的优化来提高表现。

Agent-Pro的学习和进化包括三个组件:基于信念的决策、策略层面的反思和世界模型与行为策略的优化。它使用深度优先搜索(DFS)和策略评估来持续优化世界模型和行为准则。Agent-Pro的研究为解决现实世界中的多智能体博弈任务提供了有效策略,如竞争、公司谈判和安全等情景。

论文和相关代码已公开,可通过提供的链接访问。同时,量子位正在进行2024年最值得关注的AIGC企业与产品的评选活动,详情可关注公众号QbitAI获取。

原文信息


【原文链接】 阅读原文
【阅读预估】 2041 / 9分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...