挖掘「缝合」的潜力：CapaBench 揭示 LLM 智能体中各个模块的作用

1,333 0 0

文章摘要

【关键词】 LLM评估、模块化架构、Shapley值、多任务数据集、代理性能

CapaBench框架通过模块化设计和合作博弈论中的Shapley值方法，系统性评估大型语言模型代理中不同功能模块的贡献度。该框架将代理系统解构为规划、推理、行动和反思四个核心模块，通过16种模块组合在1500多个多回合任务中的表现，量化各模块对整体性能的影响权重。实验数据显示，采用高Shapley值模块组合的任务成功率显著提升，例如在线购物任务达到43.31%准确率，自动定理证明任务达到86.79%准确率。

在模块作用分析中，不同任务类型呈现出差异化的模块依赖模式。高认知复杂度任务如在线购物和机器人协作中，规划与推理模块贡献占比超过60%，其中推理模块通过链式思维机制有效处理动态约束条件。对于数学求解和定理证明等精度敏感任务，行动模块成为主导因素，其精确执行能力直接影响任务成功率，贡献度达到55%-68%。反思模块在所有任务中的平均贡献度不足8%，研究指出其效果受限主要源于自我诊断的准确性和改进策略的有效性不足。

评估覆盖九类主流语言模型，揭示出模型能力的分化特征。Claude-3.5在形式化验证和协作任务中表现突出，其推理机制支持复杂逻辑结构构建；而开源模型在基础任务中表现尚可，但在认知密集型场景存在明显短板。实验证明，专业语料微调和工具集成能有效提升开源模型在复杂任务中的表现，如Qwen-2.5通过工具增强后，定理证明准确率提升19.7%。

数据集设计强调现实场景的复杂性模拟，涵盖七大类任务类型。导航规划任务要求代理在动态需求下进行多轮策略调整，操作系统交互任务则测试实时故障处理能力。任务难度梯度设计有效暴露了模块协同中的瓶颈，例如在票务订购任务中，预算约束与时间窗口的冲突处理需要规划与推理模块的深度配合。

该框架的应用价值体现在模块优化的精准定位。通过Shapley值计算，开发者可识别性能瓶颈模块并针对性增强，例如为数学任务强化行动模块的算法执行能力，或为协作任务升级推理模块的多主体协调策略。研究同时指出，模块贡献评估需结合具体任务特征，通用型代理架构可能无法满足专业化场景需求。未来工作将探索动态模块组合机制，使代理能根据任务类型自主配置最优模块组合。