
文章摘要
【关 键 词】 多智能体系统、性能优异、架构创新、训练机制、昇腾加速
华为发布的DeepDiver-V2原生多智能体系统采用“团队作战”模式,在复杂知识问答和深度研究报告生成方面表现出色,且已开源。
性能优于同规格竞品:在BrowseComp-zh和BrowseComp-en等权威基准测试中,DeepDiver-V2-7B和DeepDiver-V2-38B得分超越同规格竞品。在长文报告生成的WebPuzzle-Writing测试中,其生成报告平均长度是OpenAI o3 DeepResearch的两倍多,自动评测信息度表现亮眼。
架构实现创新协作:与前代不同,它采用以Planner为中心,协调多个Executor的MAS架构。Planner能进行智能任务分解,对复杂问题构建“任务树”,还采用“竞争赛马”机制。智能体通过共享文件系统交换信息,带来可扩展通信、持久化状态、并行执行的优势。系统包含信息搜集助手和写作助手两类核心Executor,实现专业化分工。
提出独特训练机制:针对多智能体系统训练挑战,提出Planner-centric分配机制。训练流程采用多阶段优化,包括冷启动监督微调、拒绝采样微调(RFT)和在线RFT。训练数据在WebPuzzle基础上增加更多挑战性和验证性数据及长文写作数据。
依托昇腾NPU集群加速:训练完全使用Atlas 800I A2集群,依托1000 + NPU组成的大规模计算集群。团队开发专门强化学习框架,包括Agent Factory、StaleSync和分布式训练。
实验分析有新发现:通过消融实验发现,Executor能力是性能瓶颈,Planner“够用就好”,Executor能力提升对系统性能提升更显著。此外,为团队协作训练的子智能体单独使用时表现出色,说明多智能体训练让子智能体处理扩展任务集时更鲁棒。
未来具有广阔前景:DeepDiver-V2从单一模型到多智能体的转变,为解决复杂现实问题开辟道路,未来将在企业调研、科学文献综述、专业数据分析等专业领域发挥巨大作用。
原文和模型
【原文链接】 阅读原文 [ 2220字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★