清华许华哲:具身智能需要从 ImageNet 做起吗?

文章摘要
具身智能的兴起源于人类对物理世界的依赖,尽管数字化技术如互联网和人工智能取得了显著进展,但人类作为物理实体的存在使得具身智能成为不可忽视的领域。具身智能的核心在于智能体与物理世界的交互,而现有的以大语言模型为主导的智能体缺乏与物理世界的对齐,导致其在空间理解等任务上表现不佳。大模型的智能主要依赖于已有的知识和数据,缺乏闭环反馈,难以突破现有知识分布。因此,具身智能的发展需要智能体具备独特的传感器和体验,以构建其独特的“自我”认知。
在具身智能的发展路径中,存在几种可能的失败模式。首先,专注于特定任务或特殊机器人的研究虽然可能在科学上有所贡献,但对推动具身智能的整体发展作用有限。其次,试图通过虚拟世界完全解决物理世界问题的做法也存在局限性,因为物理引擎在仿真复杂物体时存在本质困难,且仿真速度与质量难以兼顾。此外,单纯依赖海量数据并不能解决所有问题,数据的来源和质量同样至关重要。
具身智能的路线选择涉及多个决策点,其中端到端的方案被认为具有更高的上限,但需要大量数据的积累。在输入信号的选择上,二维图像因其易获取性和丰富的信息量仍然占据主流地位,但三维信号在数据量较小的情况下能够显著提升模型性能。触觉作为具身智能的最后一块拼图,其研究与应用之间存在巨大裂痕。触觉传感器的成本、耐用性和数据采集能力是决定其能否融入具身智能大闭环的关键因素。
模仿学习和视觉语言动作模型(VLA)是当前具身智能研究的热点。模仿学习因其简洁的形式而受到追捧,但其在面对扰动时的泛化能力较弱。VLA通过海量数据预训练提升了模型的基础能力,但其结构尚未完全成熟。强化学习在具身智能中的应用潜力巨大,但其数据成本高昂,且需要解决环境重置和奖励函数模型等问题。
具身智能的“ImageNet时刻”是一个极具迷惑性的命题。具身智能的评测标准远高于ImageNet,涉及场景复刻、视觉条件一致、机器人型号统一等多个方面。因此,具身智能的落地可能并不依赖于一个标准化的数据集,而是一款稳定的本体。
从更宏观的角度看,智能的形态可能殊途同归。无论是视觉、语言还是机器人,它们都在解决相似的问题。随着数据量和任务量的增加,不同模型在表征真实世界的方式上越来越趋于一致。这表明,智能的本质可能在于从庞大的数据量中提炼出通用的规律。
总的来说,具身智能的发展仍处于探索阶段,尽管面临诸多挑战,但其在物理世界中的应用潜力巨大。未来的研究需要在数据、模型和硬件等多个方面取得突破,以实现具身智能的真正落地。
原文和模型
【原文链接】 阅读原文 [ 8066字 | 33分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★