最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?

文章摘要
【关 键 词】 强化学习、复制训练、通用智能、模型训练、任务泛化
强化学习(RL)领域正在经历一场潜在的变革,类似于语言模型在GPT-3出现时的飞跃。当前的RL模型虽然在特定任务上表现优异,但面临泛化能力差、难以适应新任务等挑战。为了突破这些限制,一种名为“复制训练”的新范式被提出。这种训练方式通过在虚拟环境中模拟真实软件的操作过程,如使用浏览器、编写代码等,来提升模型的系统性训练能力。复制训练的优势在于任务目标清晰、评分机制明确,并且能够大规模自动生成训练数据。尽管在任务开放性和测试设计方面仍存在挑战,但复制训练被认为是推动RL模型走向通用智能的重要路径。
GPT-3的成功表明,仅靠规模的提升就能催生出强大的任务无关能力。相比之下,RL模型仍停留在GPT-3出现前的阶段,依赖预训练和任务级微调,导致泛化能力极弱。为了实现RL的“GPT-3时刻”,训练方式需要从少数环境的微调转向在成千上万种多样化环境中进行大规模训练。这种转变的关键在于构建规模和多样性远超当前水平的训练环境。然而,目前的RL数据集规模仍然有限,例如DeepSeek-R1的训练数据仅相当于6年的人工劳动,而GPT-3的语料库则需要几十万年才能完成。将RL的训练规模提升到GPT-3的水平,可能需要约1万年的模型处理任务时间。
复制训练的核心思想是让AI模型复现已有的软件产品或功能,从简单的命令行工具到复杂的系统,如网页应用和大型游戏。每个复制训练任务都提供详尽的功能规范和参考实现,模型的输出必须与参考结果完全一致。这种训练方式不仅简化了评估机制,还为模型提供了系统性磨炼核心能力的机会,如准确理解技术文档、严格执行规范、识别并修复错误等。这些能力的组合是构建可靠、高质量AI工程系统的基础。
尽管复制训练在形式上略显“人工”,但它提供了一条清晰且具可行性的路径,能够将RL训练环境扩展到支持泛化能力所需的海量规模。复制训练有望成为RL实现“GPT-3时刻”的关键,帮助模型积累成千上万年级别的任务经验,进而具备稳健、任务无关的泛化能力。然而,复制训练并非实现“全自动劳动”的终极路径。即使未来AI能够独立完成复杂软件项目,它们仍可能缺乏人类在跨领域场景中的抽象规划和高阶管理能力。尽管如此,复制训练仍有可能成为通往下一个训练范式的关键“桥梁”,为RL模型的进一步发展奠定基础。
原文和模型
【原文链接】 阅读原文 [ 2877字 | 12分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆