物理直觉不再是人类专属？LeCun等新研究揭示AI可如何涌现出此能力

AIGC动态6个月前发布 almosthuman2014

1,324 0 0

文章摘要

图灵奖得主Yann LeCun近期重申对自回归大语言模型（LLM）的批判立场，提出实现人类水平AI应聚焦世界模型研究。其团队最新成果表明，通过自然视频的自监督预训练，AI系统可自发涌现对物理规则的直觉理解，相关论文已在预印平台发布。

研究团队采用联合嵌入预测架构（V-JEPA）构建视频理解模型，该架构在抽象表示空间而非像素层面进行预测。实验显示，V-JEPA在IntPhys基准测试中达到98%零样本准确率，显著优于像素预测模型和多模态大语言模型。这种能力涌现验证了LeCun的核心假设：深度学习系统无需预设核心知识体系，仅通过观察世界即可获得基础物理认知。

研究采用发展心理学中的预期违反范式，通过测量模型对物理异常场景的”意外程度”评估其理解能力。结果显示，V-JEPA能准确识别物体持久性、连续性、重力等9项物理属性违规，在遮挡场景下的表现与人类反应呈现高度相关性。值得注意的是，1.15亿参数的小型模型仅需一周视频训练即展现出显著超越随机水平的性能。

对比实验揭示重要发现：当前顶尖多模态大模型（如Gemini 1.5 Pro）在物理直觉任务中表现与随机猜测无异，凸显莫拉维克悖论在AI领域的现实映射。研究同时发现模型局限：在涉及流体动力学和精确碰撞预测等复杂交互场景中，V-JEPA优势不显著，推测与帧率限制导致的动态信息损失有关。

这项研究为自主智能体开发提供了新方向。V-JEPA的成功表明，通过自监督视频学习获得的隐式物理表征，可能比显式编程的物理引擎更具扩展性。团队在人类对比测试中发现，模型在私有测试集上的综合表现已超越人类基准，特别是在非遮挡场景下的物体行为预测方面展现出超常能力。这些突破为构建具备常识推理能力的AI系统开辟了现实路径。