OpenAI秘密武器「草莓」计划曝光！Q*推理能力大爆发，逼近AGI L2里程碑

AIGC动态1年前 (2024)发布 AIera

1,645 0 0

OpenAI秘密武器「草莓」计划曝光！Q*推理能力大爆发，逼近AGI L2里程碑

文章摘要

OpenAI的新项目「草莓」(Strawberry)被曝光，该项目旨在提高AI模型的推理能力，使其能够提前计划、自主浏览网页并进行深度研究。Strawberry模型在大量通用数据上进行后训练，以优化其性能，可能已经达到了AGI（人工通用智能）路线图的Level 2级别。Level 2级别的AI能够像人类一样解决问题，目前尚未有AI模型实现这一目标。

Strawberry项目的具体运作方式在OpenAI内部高度保密，公开发布时间未知。然而，根据路透社看到的内部文件，OpenAI团队正在全力研究该项目。OpenAI希望Strawberry的创新能显著提高其AI模型的推理能力，使其能够提前计划、反映物理世界的运作，并可靠地解决复杂的多步骤问题。

改进AI模型的推理能力被认为是解锁其潜力的关键。有了推理能力，AI模型在进行重大科学发现、规划构建新的软件应用等方面都会有显著提升。Sam Altman曾表示，AI领域未来最重要的进展将围绕推理能力展开。其他科技巨头如谷歌、Meta、微软等也在尝试不同技术来改进AI模型的推理能力。

Strawberry项目包括一种被称为「后训练」的特殊方法，即在AI模型已经在大量通用数据上训练后，调整基础模型以特定方式优化其性能。这一过程涉及「微调」等方法，类似于斯坦福大学开发的「自我教导推理者」（Self-Taught Reasoner，简称STaR）方法。STaR使AI模型能够通过迭代创建自己的训练数据，实现自我提升。

OpenAI还希望Strawberry具备执行长时间任务（Long Horizon Task, LHT）的能力，这指的是需要模型提前计划并在较长时间内执行一系列动作的复杂任务。为此，OpenAI正在创建、训练和评估被称为「深度研究」数据集的模型。此外，OpenAI还计划测试Strawberry在软件和机器学习工程师工作中的应用能力。

2023年11月，OpenAI的神秘Q*项目曾引爆AI社区。Q*的能力是解决以前从未见过的小学阶段数学问题，这被视为朝向AGI迈出的重要一步。Q*项目可能与Strawberry有关，是基于AlphaGo式蒙特卡罗树搜索token轨迹的一种方法。

最近，OpenAI在旧金山人工智能工程师世界博览会上展示了GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine（未发布）等产品。这些产品演示展示了OpenAI在AI领域的技术进步。如果再加上Strawberry的推理能力，OpenAI离实现AGI可能已经非常接近。