
文章摘要
【关 键 词】 人工智能、具身认知、多模态、语言模型、AGI
生成式人工智能模型的成功让一些人相信人工通用智能(AGI)即将到来,但这些模型并未真正捕捉到人类智能的本质。它们之所以出现,主要是因为它们能够有效地扩展规模,而不是因为它们解决了智能的核心问题。多模态方法通过将多个模块化网络结合在一起,看似实现了通用智能,但这种方法在短期内注定会失败。与其将多个模态拼凑在一起,我们应该追求将具身性和与环境的互动放在第一位的智能方法,并将以模态为中心的处理过程视为涌现现象。
真正的 AGI 必须在所有领域都是通用的,包括解决物理现实中的问题,如修理汽车、解开绳结等。这些问题需要一种基于物理世界模型的智能形式,而不仅仅是符号操作。大型语言模型(LLM)通过预测下一个 token 的方法来学习世界模型,但它们对现实的理解停留在表面,LLM 的行为并不是来自它们学习到的世界模型,而是来自对符号行为的难以理解的抽象规则的蛮力记忆。这种预测下一个 token 的目标虽然产生了与人类类似的对世界的理解,但它并未真正理解物理世界。
LLM 的能力来源可能是一种新兴理论,认为它们通过预测下一个 token 的方法来引出世界模型。然而,这种理论存在局限性。例如,奥赛罗论文中的研究虽然能够通过合法移动序列预测奥赛罗游戏的棋盘,但这种方法无法推广到自然语言模型,因为物理世界中的许多问题不能完全由符号系统表示并用纯粹的符号操作解决。生成模型可以在序列预测任务上取得惊人的成绩,但它们无法学会创造这些序列数据的世界模式。
人类的语言理解体系是由语法、语义和语用学等不同的认知能力融合而成的。LLM 将语义和语用问题简化为语法问题,这对其智能的理解产生了深远的影响。虽然 LLM 在语言技能上表现出色,但这些技能可能来自完全不同的认知机制,而不是真正的智能。人类能够生成语法上正确但没有语义意义的句子,而 LLM 则无法真正理解语义学,即世界的本质。
规模最大化主义在 LLM 和大型视觉模型(LVM)上取得了成功,但将规模最大化方法应用于 AGI 将需要我们没有积累过的具身数据形式。多模态建模试图通过拼合狭窄模态的通用模型来构建通用智能,但这种方法存在多个问题。模态之间存在深刻的联系,这些联系在多模态设置中被人为切断,使得概念综合问题变得更难解决。现代方法虽然不再对模态如何联合做出严格的假设,但它们仍然普遍将所有模态的感知编码到同一个潜空间中,这并未清晰地捕捉到与概念相关的所有信息。
从规模中学习的方法训练模型复制人类的概念结构,而不是学习独立形成新概念的通用能力。人类能够从少数例子中形成持久的概念,而当今的模型在任务变得更加复杂时,其能力的局限就变得越来越大。从经验中形成新概念的灵活性是通用智能的基础属性,我们应该仔细考虑它是如何产生的。
我们应该设计一个可以自然涌现对各种模态的处理方法的设置,而不是在各个模态中预设结构。例如,抽象符号可以从图像分类代理之间的通信中自然出现,模糊了文本和图像处理之间的界限。最终,我们应该尽可能多地将智能的特征重新整合在同一把伞下。虽然大规模和微调的狭义智能模型解决了很多商业用例,但这种方法是否具有真正的商业可行性还不清楚。
AGI 拼图中最具挑战性的数学部分已经被解决,即通用函数逼近器已经出现。剩下的问题是如何将这些函数安排成一个连贯的整体。这是一个概念问题,而不是数学问题。为了构建 AGI,我们必须要么深入思考如何统一现有的模态,要么完全放弃它们,转而支持一个互动的和具身的认知过程。
原文和模型
【原文链接】 阅读原文 [ 5718字 | 23分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★