多智能体在「燃烧」Token!Anthropic公开发现的一切

多智能体在「燃烧」Token!Anthropic公开发现的一切

 

文章摘要


【关 键 词】 多智能体研究系统协作提示词评估

多智能体系统在处理开放式研究任务中展现出显著优势,尤其是在需要并行探索和复杂工具交互的场景中。Anthropic 的研究表明,多智能体架构通过将任务分配给多个并行运行的子智能体,能够显著提升研究效率和结果质量。这种架构特别适合处理那些信息量超出单一上下文窗口或需要大量并行处理的任务。例如,在「广度优先」的查询任务中,多智能体系统的表现比单一智能体高出 90.2%。多智能体系统的核心优势在于能够通过充分的 token 消耗来解决问题,token 消耗量、工具调用次数和模型选择构成是影响性能的关键因素。

多智能体系统采用「协调者 – 执行者」模式,主导智能体负责整体协调,而子智能体则并行探索问题的不同方面。这种动态搜索流程能够根据中间结果不断调整方向,生成高质量的答案。与传统检索增强生成(RAG)方法相比,多智能体系统能够进行更深入的分析和调整,从而提升研究结果的准确性和完整性。然而,多智能体系统的一个显著缺点是 token 消耗量极高,通常是普通聊天交互的 15 倍左右,因此其应用场景需要任务价值足够高以覆盖成本。

提示词工程方面,Anthropic 总结了多个优化原则,包括高效的提示词设计、明确的任务分工、根据查询复杂度调整投入力度、工具的选择与设计,以及智能体的自我改进能力。提示词工程在多智能体系统中尤为重要,因为每个智能体的行为都由提示词驱动,优化提示词能够显著提升系统的整体性能。此外,Anthropic 还引入了并行调用工具和扩展思维模式,进一步提升了研究任务的速度与性能。

评估多智能体系统面临独特的挑战,因为智能体可能会走上不同但同样有效的路径来实现目标。Anthropic 采用了从小样本评估开始的方法,并使用「LLM 评审官」来评估输出的质量。人工评估在发现自动化评估遗漏的问题方面仍然不可或缺,尤其是在处理边缘案例和细微的来源选择偏差时。

尽管多智能体系统在开放式研究任务中展现出巨大价值,但其生产可靠性和工程挑战也不容忽视。智能体系统的有状态性和错误累积特性使得调试和部署变得异常复杂,需要细致的工程设计和全面的测试。Anthropic 通过构建能够从错误状态继续执行的系统、采用彩虹部署和逐步引入异步执行机制,来应对这些挑战。

总之,多智能体系统在解决复杂问题方面具有巨大潜力,但其成功依赖于细致的工程设计、全面的测试和团队之间的紧密合作。随着技术的不断进步,多智能体系统有望在更多高价值任务中发挥重要作用。

原文和模型


【原文链接】 阅读原文 [ 5950字 | 24分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...