文章摘要
【关 键 词】 AI性能提升、系统二思维、深度推理、强化学习、人机交互
在旧金山举行的TED AI大会上,OpenAI的高级研究科学家Noam Brown提出了一个创新理论,即通过让AI模型进行20秒的思考,可以实现相当于将模型扩大100,000倍并训练100,000倍的性能提升。这一发现最初令Brown本人也感到惊讶,他通过多篇论文验证了其真实性。他将这种性能提升归因于“系统二思维”(System 2 thinking),这是一种心理学概念,描述了人类在处理复杂问题时所采用的深度思考方式。这一概念由心理学家Daniel Kahneman提出,区分了快速、直觉的系统一思维和缓慢、逻辑的系统二思维。
Brown指出,尽管过去五年AI领域的巨大进步主要得益于规模的扩大,但现代AI模型仍然基于2017年推出的Transformer架构,其主要区别在于数据规模和计算能力。他强调,现在是时候转变训练和推理的范式,让AI模型超越数据预处理,进入更慢、更审慎的拟人化推理形式,以解决超复杂的问题。
将“系统二思维”应用于AI领域,Brown展示了通过模拟人类的深度思考,AI模型可以在不增加大量数据或计算资源的情况下显著提升性能。例如,他开发的德扑AI Libratus通过在每手牌中思考20秒,就能获得与将模型扩大100,000倍相同的性能提升。这种方法的核心在于让AI模型在做出决策前进行更深入的分析和推理。
OpenAI最新发布的o1模型也引入了系统二思维,能够进行深度推理,模仿人类逐步解决问题的过程。通过自我对弈等强化学习训练方式,o1模型在国际数学奥林匹克资格考试中取得了83%的准确率,远高于GPT-4o的13%。这对于金融、医疗、科研、编码等对数据要求严谨的行业来说非常重要。
系统二思维对于增强大模型的能力有很多好处,使其能够更好地适应新的、未见过的任务和环境。在面对错误、不确定性和异常情况时,系统二思维还可以帮助大模型变得更加鲁棒。此外,在人机交互方面,模拟系统二思维能帮助大模型更好地理解和预测人类用户的需求和意图,从而改善交互体验。
Noam Brown曾在FAIR(Meta)工作,与同事共同开发了CICERO,这是首个在策略游戏外交中达到人类水平表现的AI。他还与卡内基梅隆大学的导师一起创建了Libratus和Pluribus,这两个AI在人机对战比赛中战胜了顶尖人类德扑职业选手。Libratus获得了AI杰出成就马文・明斯基大奖,Pluribus则登上了《科学》杂志封面,并成为2019年《科学》年度突破奖的亚军。Brown被评为麻省理工科技评论35位35岁以下创新者之一,目前是OpenAI的高级研究科学家,主要研究方向包括超复杂推理、AI Agent以及自我对弈。
原文和模型
【原文链接】 阅读原文 [ 1229字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆