不发 GPT-5、直接上 GPT-6？曝 OpenAI 新模型代号 Orion，目标“杀死”幻觉

2,551 0 0

文章摘要

OpenAI 正在开发一个名为“草莓”的项目，该项目旨在推出一款超越 GPT-4 的大语言模型，代号为 Orion。草莓项目最早可能在今年秋季发布，将作为 ChatGPT 的一部分功能推出。草莓的增强逻辑与推理能力可以使 AI 系统提前规划并具备深度研究能力，为实现复杂决策和任务执行的更多自主 AI 智能体铺平道路。

草莓预计将负责生成高质量的合成训练数据，为 Orion 提供关键助力，这种方法有望减少错误并提高下一代模型的整体性能。草莓系统的目的是强化 OpenAI 的模型推理能力，处理复杂科学和数学问题的能力，让大模型不仅能生出答案，还能提前规划，以便自主、可靠浏览网络，进行 OpenAI 定义的深度研究。

OpenAI 正在使用更大版本的草莓生成提供给 Orion 的训练用数据，这种由 AI 生成的训练数据也被称作“合成数据”。与之前的模型相比，草莓与高质量合成数据的结合有望减少 Orion 的出错几率，有望帮助 OpenAI 提升获取高品质数据的能力。有研究表明，高质量数据正是打造强大且高效的 AI 模型的关键前提。

草莓项目的前身为 Q*，自去年秋天开始流传 OpenAI 可能取得更大突破以来，就一直是 AI 社区的猜测话题。草莓旨在解决大模型以往未曾见过的数学问题并优化编程任务，其增强逻辑还有望使其在拥有充足“思考”时间的情况下，更加有效地解决与语言相关的挑战。

在内部演示中，草莓成功拼出了《纽约时报》上刊登的字谜“Connections”。该模型还可为其他更先进的 AI 系统提供支撑，帮助其在生成内容的同时还可采取操作行动。OpenAI 还在内部文件中描述了使用草莓模型实现互联网自主搜索的计划，希望让 AI 掌握提前规划和深入研究的能力。

此外，之前有外媒报道，OpenAI 已经对一款在 MATH 基准测试中得分超过 90% 的 AI 模型进行了内测。MATH 基准测试是一系列冠军级数学问题，包含高中生和大学生数学竞赛的问题，被视作衡量 AI 系统在解决复杂数学问题方面的性能基准。相比之下，最初的 GPT-4 得分约为 53%，而 GPT-4o 的得分为 76.6%。

而最新消息称，这一分数高于 90% 的模型很可能就是草莓，今年夏天 OpenAI 还向美国国家安全官员展示了草莓模型。考虑到安全问题，这款强大的模型不直接对公众提供服务，以防止被美国限制的国家拿它来合成数据训练更强大的模型。

OpenAI 会在草莓的基础上提供一个更小的蒸馏版对外提供服务，这样部署成本也更低，完整的草莓会被该公司内部用来生成高质量的合成数据。另值得一提的是，草莓系统的诞生与 OpenAI 前首席科学家 Ilya Sutskever 和斯坦福大学都有所关联。

按照 OpenAI 的猜想，未来 AI 会经历聊天机器人、推理者、代理者、创新者、组织者共 5 个阶段，而草莓系统极有可能是帮助其实现第二级 AI（推理者，人类层级的问题解决）的关键。由于推理能力限制，目前 AI 技术在诸如航天、结构工程之类的数学密集型行业中并没有广泛应用。因此，大模型数学推理能力的最佳化成为普及 AI 应用的必备条件，也是 AI 公司进一步提升获利能力的必经之路。

谷歌 DeepMind 同样在研究具备高级数学能力的 AI 系统。他们先后开发出 AlphaProof 与 ALphaGeometry 2，后者还在国际数学奥林匹克竞赛中斩获银牌。然而，目前仍不清楚这些模型的扩展与推广效果究竟如何。