Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

1,008 0 0

文章摘要

朱哲清是一位坚定的强化学习（RL）信仰者，他早在2016年AlphaGo击败李世石时便意识到AI的潜力，并开始深入研究RL。尽管RL在随后的几年中经历了低谷，朱哲清始终坚信其价值，并在Meta工作期间带领边缘化的RL团队逆势突围，成功将RL应用于广告竞价、推荐系统等核心业务，为公司创造了数亿美元的收益。他始终在探索一种真正通用的RL框架，能够应对各种复杂任务，并最终选择离开Meta，创立了专注于AI Agent的公司。

朱哲清认为，强化学习的核心优势在于其目标驱动的思维结构，这种结构使得RL能够通过不断调整策略和规划路径来解决复杂问题。他批评当前的大语言模型（LLM）虽然擅长知识回忆和模仿，但缺乏主动性和目标驱动性，无法真正解决复杂任务。在他看来，强化学习是实现超人类智能（Superhuman Intelligence）的必经之路，因为它能够通过目标导向的方式，在未知环境中自主探索和优化。

朱哲清的公司推出的AI Agent产品Pokee.ai，是一款具备强执行力的通用智能体。它能够通过自然语言指令自动调用工具，完成从内容创作到平台发布的全流程任务，甚至在商业场景中提升效率。Pokee.ai的独特之处在于其可扩展性和稳定性，即使在面对成千上万的工具时，依然保持了超过97%的执行准确率。朱哲清强调，Pokee.ai的目标不仅是生成内容，而是通过自主规划和执行任务，对环境产生实际影响。

在技术架构上，朱哲清的公司完全自主研发了强化学习模型，而非依赖现有的语言模型。他认为，现有的语言模型在决策建模上存在本质问题，无法满足商用级别的精度和鲁棒性需求。因此，他们重构了整个系统，使其成为一个由强化学习驱动的结构化决策系统，而非语言生成驱动的系统。

朱哲清对未来Agent的形态有着清晰的愿景。他认为，未来的Agent体系将是一个没有界面的“无形互联网”，用户只需通过自然语言指令，后台的分布式、模块化Agent体系将自动完成从信息检索到实际执行的全部步骤。他预测，浏览器这种前端形态可能会消失，取而代之的是Agent与Agent之间的直接交互，形成以智能体为核心的新网络体系。

总的来说，朱哲清通过强化学习和AI Agent的探索，致力于推动智能体从生成型向执行型的转变，目标是打造能够自主规划、执行任务并对环境产生实际影响的下一代智能体。他的工作不仅是对现有技术的突破，更是对未来智能形态的前瞻性思考。