模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 Agent-Pro、智能体、进化策略、多智能体博弈、AIGC
浙江大学和中科院软件所的研究人员开发了一种新的Agent进化策略,创建了一个能够玩德州扑克的智能体Agent-Pro。Agent-Pro基于大型模型,通过自我优化的提示(Prompt)来构建游戏世界模型和行为策略,能够掌握虚张声势和主动放弃等高阶游戏策略。与传统Agent相比,Agent-Pro能够灵活应对复杂动态环境,并可通过与环境互动优化行为以实现目标。
在21点和有限注德州扑克两款游戏中,Agent-Pro的表现超过了ReAct框架和其他Agents框架。它通过分析自我信念(Self-Belief)和对外部世界的信念(World-Belief)来做出决策,并在游戏中不断更新信念以适应环境变化。Agent-Pro还通过策略层面的反思(Policy-Level Reflection)和世界模型及行为准则的优化来提高表现。
Agent-Pro的学习和进化包括三个组件:基于信念的决策、策略层面的反思和世界模型与行为策略的优化。它使用深度优先搜索(DFS)和策略评估来持续优化世界模型和行为准则。Agent-Pro的研究为解决现实世界中的多智能体博弈任务提供了有效策略,如竞争、公司谈判和安全等情景。
论文和相关代码已公开,可通过提供的链接访问。同时,量子位正在进行2024年最值得关注的AIGC企业与产品的评选活动,详情可关注公众号QbitAI获取。
原文信息
【原文链接】 阅读原文
【阅读预估】 2041 / 9分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...