Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

文章摘要
【关 键 词】 强化学习、智能体、通用AI、执行能力、技术突破
朱哲清是一位坚定的强化学习(RL)信仰者,他早在2016年AlphaGo击败李世石时便意识到AI的潜力,并开始深入研究RL。尽管RL在随后的几年中经历了低谷,朱哲清始终坚信其价值,并在Meta工作期间带领边缘化的RL团队逆势突围,成功将RL应用于广告竞价、推荐系统等核心业务,为公司创造了数亿美元的收益。他始终在探索一种真正通用的RL框架,能够应对各种复杂任务,并最终选择离开Meta,创立了专注于AI Agent的公司。
朱哲清认为,强化学习的核心优势在于其目标驱动的思维结构,这种结构使得RL能够通过不断调整策略和规划路径来解决复杂问题。他批评当前的大语言模型(LLM)虽然擅长知识回忆和模仿,但缺乏主动性和目标驱动性,无法真正解决复杂任务。在他看来,强化学习是实现超人类智能(Superhuman Intelligence)的必经之路,因为它能够通过目标导向的方式,在未知环境中自主探索和优化。
朱哲清的公司推出的AI Agent产品Pokee.ai,是一款具备强执行力的通用智能体。它能够通过自然语言指令自动调用工具,完成从内容创作到平台发布的全流程任务,甚至在商业场景中提升效率。Pokee.ai的独特之处在于其可扩展性和稳定性,即使在面对成千上万的工具时,依然保持了超过97%的执行准确率。朱哲清强调,Pokee.ai的目标不仅是生成内容,而是通过自主规划和执行任务,对环境产生实际影响。
在技术架构上,朱哲清的公司完全自主研发了强化学习模型,而非依赖现有的语言模型。他认为,现有的语言模型在决策建模上存在本质问题,无法满足商用级别的精度和鲁棒性需求。因此,他们重构了整个系统,使其成为一个由强化学习驱动的结构化决策系统,而非语言生成驱动的系统。
朱哲清对未来Agent的形态有着清晰的愿景。他认为,未来的Agent体系将是一个没有界面的“无形互联网”,用户只需通过自然语言指令,后台的分布式、模块化Agent体系将自动完成从信息检索到实际执行的全部步骤。他预测,浏览器这种前端形态可能会消失,取而代之的是Agent与Agent之间的直接交互,形成以智能体为核心的新网络体系。
总的来说,朱哲清通过强化学习和AI Agent的探索,致力于推动智能体从生成型向执行型的转变,目标是打造能够自主规划、执行任务并对环境产生实际影响的下一代智能体。他的工作不仅是对现有技术的突破,更是对未来智能形态的前瞻性思考。
原文和模型
【原文链接】 阅读原文 [ 6746字 | 27分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★