OpenAI新模型「草莓」曝光：强推理/长任务规划/超大规模训练！还给出AGI分级

AI-Agent1年前 (2024)发布 QbitAI

3,323 0 0

OpenAI新模型「草莓」曝光：强推理/长任务规划/超大规模训练！还给出AGI分级

文章摘要

【关键词】 AI模型、推理能力、STaR方法、Quiet-STaR、智能系统

OpenAI正在开发一个名为“草莓”的新模型，它是Q*模型的后继者。尽管“草莓”的工作机制在内部被严格保密，但据悉，它在超大规模数据集上完成了预训练，并采用了一种特殊的方法。在一次内部全体会议上，OpenAI展示了一个demo，该项目的推理能力已接近人类水平。这被认为是AI达到人类智能水平的关键。

“草莓”模型不仅能够生成答案，还能执行长任务（LHF），包括提前进行规划，自主可靠地在互联网上导航以及一系列行动。例如，通过CUA（一种计算机代理）的帮助来自动浏览网页，该代理可以根据发现内容采取行动。这是当前AI模型所不能解决的问题。

OpenAI正在开发训练评估这些模型的方法，并形成了一个名为“深度研究”的数据集。同时，OpenAI还计划测试模型可以如何影响软件和机器学习工程师的工作。一位知情人士透露，“草莓”与斯坦福大学在2022年提出的一种名为自学推理（Self-Taught Reasoner，简称STaR）的方法很相似。

STaR的创新点在于不依赖大规模人工标注的数据集进行训练，通过自举的方式让大模型自己学会如何推理。具体来说，一开始会把少量带有推理步骤的样本作为示范，与待推理的问题一起输入给模型。然后模型会生成每个问题的推理步骤和答案，从中筛选出推理结果正确的样本，将其作为新的训练数据。对于无法正确推理的问题，作者还引入了“反向推理”机制，将正确答案作为提示，让模型倒推对应的推理步骤，将生成结果并入训练集。最终，用新的训练数据微调原始语言模型，重复进行推理生成，直至性能趋于稳定。

在此基础上，斯坦福团队又提出了一种名为Quiet-STaR的推理方式，简写为Q*。Quiet-STaR的核心改进是把推理过程的生成从显式的思考变成了隐式的内部思考，实现了对推理过程的静默建模。它引入了可学习的“思考开始”和“思考结束”特殊token，使模型能够自主学习何时开始和结束推理。

OpenAI在内部全体会议上提出了一套评级来定义AI的进展，分为5级：L1（Chatbots，具备对话能力，如ChatGPT）、L2（Reasoners，人类级问题解决能力，OpenAI已接近）、L3（Agents，可以代表用户采取行动）、L4（Innovators，AI可以辅助发明创造）、L5（Organizations，AI可以像一个管理者那样完成工作）。L5是达到AGI的最后一步，即在最具经济价值的任务中超越人类的高度自治系统。

此次曝光的“草莓”模型和相关技术，展示了OpenAI在AI推理能力方面的最新进展。尽管具体细节仍保密，但可以预见，随着技术的发展，AI的推理能力将得到进一步提升，为实现更高级的智能系统奠定基础。