多步推理碾压GPT-4o，无需训练性能提升10%！斯坦福开源通用框架OctoTools

921 0 0

文章摘要

大型语言模型（LLMs）在处理复杂任务时面临挑战，尤其是在需要多步推理、特定领域知识或外部工具集成的场景中。现有的方法通常需要对模型进行微调或额外训练，导致灵活性和适应性受限。为了解决这一问题，斯坦福大学推出了OctoTools框架，该框架通过标准化的工具卡和规划器，帮助LLMs高效完成复杂任务，而无需额外训练。OctoTools在16个任务中的表现优异，平均准确率比其他方法高出9.3%，尤其在多步推理和工具使用方面具有显著优势。

OctoTools的核心设计理念是让人工智能系统能够高效地使用外部工具，而无需额外的训练或框架调整。其主要组件包括工具卡片、规划器、执行器以及一个任务指定的工具集优化算法。工具卡片定义了工具使用的元数据，用户可以在不修改底层框架或智能体逻辑的情况下，轻松集成各种工具，极大提高了工具的可扩展性和灵活性。每个工具卡片代表一个工具及其必要的元数据，包括工具的名称、输入和输出类型，以及命令示例，为规划器和执行器提供了开发者的指导建议。

规划器负责从宏观和微观两个层面进行规划，确保任务能够高效、精准地执行。规划器首先会检查工具箱，加载所有工具卡片，并根据专家建议或通过少量示例进行优化，选出工具子集。当输入一个查询时，规划器会为工具的使用制定一个初步的、宏观的计划，并在每步内提出一个行动，实时细化并执行每个子目标。在每次执行命令后，上下文验证器会检查当前上下文是否已经解决了问题，如果问题仍未解决，规划器会继续进入下一个循环，预测下一个动作。

执行器负责生成可执行的命令，调用工具，并将结构化的结果保存在上下文中。命令生成器会创建一个低层次的命令，形式为可执行的Python脚本，调用指定工具，并提供必要的输入。命令执行器会在Python环境中运行生成的命令，并获取结果，包括工具的输出、日志或错误信息。轨迹保留了采取的动作、生成的代码以及获得的结果的清晰历史记录。

OctoTools工具箱包含多种工具，涵盖了不同的模态和技能，启用所有可用工具时具有很强的通用性。当为某个任务提供少量验证样本时，选出工具子集可以进一步提高效率和性能表现。研究人员提出了一种自动化的算法为每个任务优化工具集配置，采用贪心搜索策略将计算复杂度降低到O(n)，与工具数量线性相关。

在实验中，OctoTools在性能上取得了显著提升，比零样本和连贯推理基线分别高出9.3%和7.7%。与其他智能体框架相比，OctoTools的表现也更为优异，平均准确率比AutoGen高出10.6%，比GPT-Functions高出7.5%，比LangChain高出7.3%。这些结果表明，OctoTools的逐步推理能力对性能的提升有显著贡献，即使不依赖外部工具集成也是如此。

总体而言，OctoTools通过标准化的工具卡和规划器，帮助LLMs高效完成复杂任务，无需额外训练，显著提高了任务执行的准确性和效率。其设计理念和实验结果展示了在多步推理和工具使用方面的巨大潜力，为未来的智能体框架提供了新的方向。