
文章摘要
月之暗面(Moonshot AI)推出了其首个AI Agent产品——Kimi Researcher,该产品定位为一个能够生成带引用来源的深度研究报告的AI Agent,而不仅仅是一个简单的搜索工具。根据技术博客披露的数据,Kimi Researcher在实际运行中平均会搜索超过200个URL,运行70多次搜索查询,最终生成超过1万字的深度报告。在Humanity’s Last Exam(HLE)这一高难度基准测试中,其得分达到26.9%,创下了该测试的最高纪录。
2024年以来,AI Agent领域呈现两个明显趋势:一是从“外挂式”向“内化式”转变,即从依赖外部工具调用转向提升模型本身的能力;二是从规则驱动向学习驱动转变,让AI通过大规模训练自主发现解决问题的策略。Kimi Researcher的推出,正是这一趋势的具体体现。在当前AI领域,Agent被普遍认为是通往通用人工智能(AGI)的重要方向。
目前,行业内构建Agent的主流方法之一,是采用“工作流(Workflow)”模式。例如,Devin 和 Manus 都采用了明显的任务拆分 + 预定义执行流程架构:先由 Planner 制定多阶段计划,然后 Executor 调用工具一步步完成任务,并根据反馈继续调整。这种方法通过提示词工程(Prompt Engineering)和模块化设计,将大语言模型与各种外部工具进行链接,其优势在于流程清晰、可控性强。但同时,这种依赖人类预先设计流程的模式,在面对开放、复杂任务时,也存在灵活性不足、难以泛化等挑战,这促使一些团队开始探索新的技术路径。
Kimi Researcher所选择的,就是另一条不同的技术路线:端到端的强化学习(End-to-End Reinforcement Learning, E2E RL)。这一方法的核心,是让模型在一个模拟的环境中通过大量的自主探索和试错来学习,目标是让模型自己“领悟”出完成任务的策略,而不是严格遵循一套由人类编写的固定步骤。这种将能力“内化”于模型自身的思路,与“工作流”模式下模型作为“调用者”的思路有显著不同。
采用端到端强化学习训练Agent面临诸多技术挑战,首先是环境的不稳定性,网络搜索结果会随时间变化;其次是长序列决策问题,一个研究任务可能需要上百个步骤;最后是计算资源消耗,每次训练迭代都需要大量的“试错”过程。月之暗面通过部分展开(Partial Rollout)等技术创新,将训练效率提升了1.5倍。
值得注意的是,将E2E RL应用于研究型Agent的探索并非孤例。OpenAI官方Deep Research系统卡中提到,该模型学习了包括浏览、使用Python工具进行计算分析以及推理整合大量网站信息的能力。其训练方法与o1模型所使用的强化学习方法一脉相承。根据OpenAI团队成员Isa Fulford 和 Josh Tobin在红杉资本的播客《OpenAI’s Deep Research on Training AI Agents End-to-End》中的分享,Deep Research 并非通过手动将模型和工具拼成 workflow,而是用端到端强化学习在浏览+推理任务上训练模型,让其自主规划、回退、调整策略,Deep Research使用了类似的端到端强化学习进行训练,由于Deep Research处理的任务往往没有标准可验证的答案来提供奖励信号,分析表明他们可能使用了LLM as Judge(大型语言模型作为评判者)来实施强化学习。在强化学习中,奖励机制是核心,而LLM as Judge是一种通过语言模型评估Agent行为并提供反馈的方法。这种方法特别适用于没有明确奖励信号的复杂任务,能够优化Agent的表现。
在产品层面,Kimi Researcher将后端的技术以“双报告系统”的形式呈现给用户:一份是包含详细文字和可溯源引用的深度报告,另一份则是动态、可视化的网页报告,后者通过思维导图和图表来提升信息获取效率。此外,产品在交互上会尝试主动澄清用户的模糊需求,以帮助定义清晰的问题。
Kimi Researcher的推出,标志着AI Agent技术的一次重要突破,展示了通过强化学习训练模型自主完成复杂任务的潜力。未来,随着技术的进一步发展和优化,AI Agent有望在更多领域发挥重要作用,成为人类在科研、商业等领域的得力助手。
原文和模型
【原文链接】 阅读原文 [ 5436字 | 22分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★