5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

AIGC动态19小时前发布 AIera
84 0 0
5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

 

文章摘要


【关 键 词】 强化学习AGI持续学习白领自动化技术突破

Claude 4核心成员Sholto Douglas和Trenton Bricken在播客节目中提出,仅依靠强化学习(RL)和数据收集就足以在5年内实现通用人工智能(AGI),并自动化白领工作。这一观点引发业内激烈讨论,但遭到包括Karpathy在内的多位专家质疑。主要争议点在于当前大型语言模型(LLM)缺乏持续学习能力,无法像人类那样通过反馈和经验积累实现有机进步。

技术层面存在三个关键探索方向:扩展强化学习规模、解决稀疏奖励问题、实现持续学习机制。当前RL训练主要针对短任务(1万-10万token),而未来需要处理超长任务(100万-1亿token),这将要求整合多轮推理和环境交互。Nathan Lambert指出,虽然RL在语言模型中取得突破,但要应用于代码库优化或复杂策略制定仍需重大技术突破。预训练与后训练的比重可能发生转变,RL训练周期将显著延长,形成类似持续学习的特征。

持续学习的实现面临根本性挑战。真正的持续学习要求模型能像人类一样从经验中持续调整参数,而现有系统仅能通过提示词修改实现有限改进。Arc Prize提出的”技能获取效率”概念为衡量智能提供了新视角。推理时扩展(inference-time scaling)作为替代方案,可通过放大思维链提示方法获得10-100倍的性能提升,但这与本质性的持续学习存在差异。

稀疏奖励领域的RL扩展存在特殊困难。机器人研究经验表明,端到端强化学习并非所有场景的最佳方案,盲目套用现有训练范式可能带来风险。推荐系统展示了即时学习的可能性,但将其应用于强大AI模型可能引发隐私和控制问题。局部记忆机制和本地化学习被视为更安全的替代路径。

Richard Sutton的强化学习理论为讨论提供了哲学基础。他认为智能本质源于智能体与环境的交互体验,这种”体验时代”的来临将推动AI突破人类数据局限。随着交互数据的积累,智能体可能发展出超越人类的能力,但这需要RL技术的根本性进步。技术发展路径的选择不仅关乎效率,更涉及权力分配——开源模型可能推动个性化AI发展,而大公司更倾向维护少数通用模型。

原文和模型


【原文链接】 阅读原文 [ 3303字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...