
文章摘要
【关 键 词】 吴翼创业、强化学习、OpenAI、AReaL开源、创业观点
年仅 30 多岁的吴翼拥有众多亮眼标签,他创立的边塞科技 2024 年被蚂蚁收购,团队 4 年的规模化强化学习成果积累到开源项目 AReaL 中。在接受采访时,吴翼分享了求学、工作和创业经历及观点。
求学与工作经历:吴翼原本想去 Google Brain,但因工作时长问题与 HR 扯皮,最终因 OpenAI 无 headcount 限制且等待他一个月而入职。在竞赛方面,他认为 ICPC 等比赛类似体育活动,涉及技巧和心理因素。大模型在竞赛中挂零是因模型不够好,攻克这些比赛是迟早的事。谷歌 Gemini 和 OpenAI 在 IMO 上的“夺金”归功于 RL 训练。
OpenAI 的赛道选择与影响:OpenAI 赛道选择分两方面,早期 top – down 追求 AGI,GPT 系列则是 bottom – up,看到 evidence 后扩大规模。吴翼受其影响,研究聚焦强化学习领域,围绕 AReaL 展开。OpenAI 的“Multi – Agent Hide and Seek”是 multi – agent 团队研究主线成果,后来团队有自由探索,智能体本质区别在于有无预训练。
创业观点:吴翼认为中国创业公司难走 OpenAI 路线。创业是长跑,不能一直冲刺,要边走边看 evidence,看到后再激进冲刺。AI 时代变化快,目标确定后不要过度规划,要激进寻找 evidence 并调整迭代。硅谷资源多、对技术创业者友好,国内创业是身心灵的修炼场。他回国创业受 OpenAI 研究方式影响,采用 product – driven research,看重基础设施和系统。
创业经历反思:如今他认为现在不是好的纯 AI 技术创业时间点,中国做具身、产品或与算力芯片相关的创业较合适。创业困扰多在人性方面,创业者要理解商业,多尝试试错。创业非技术命题,很多事受时间窗口等客观因素影响,建议年轻人多尝试。
AReaL 相关情况:AReaL 与团队之前工作一脉相承,从 MAPPO 到现在基本都是 RL scaling。其定位是让人更快训练出更好的 Agent 模型,目前无竞品。好的 RL 框架要“好且快”“好用”,AReaL 围绕此进行重构。从开源看,中国人在这方面表现出色,但头部公司有更好的 infra。AReaL 围绕 Agent 打造,也可训练代码和泛化模型。做 Agent 应用不一定用 RL 训练,但资源成本下降时,RL 可助力打造更好产品。目前 AReaL 在数学和编码领域达开源顶尖水平,团队目标是做好该开源产品。
原文和模型
【原文链接】 阅读原文 [ 7038字 | 29分钟 ]
【原文作者】 AI前线
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★