无需动作预训练,物理自回归模型让机器人“从视频学会操作”

文章摘要
【关 键 词】 PAR模型、机器人操控、视频生成、自回归闭环、数据稀缺
中山大学与拓元智慧AI实验室联合提出的“物理自回归模型(PAR)”,打通了“预判未来视频帧—生成动作轨迹”的统一链路,在机器人操控领域展现出显著优势。
在研究背景方面,机器人操控领域获取大规模、标注完备的人类示教数据成本高昂,语言大模型用于行动策略存在文本与动作模态的鸿沟。而自回归视频生成模型擅长“基于过去预测未来”,与动作生成目标一致,是迁移“世界知识”的理想载体。同时,现有的方法依赖“局部观察”,缺乏长程历史记忆,而具备全局记忆的自回归框架可实现“视觉 – 动作”的全局关联建模,降低机器人“动作漂移”问题。
PAR模型的核心是将机器人与环境的交互过程统一描述成“物理token”,每个token包含视觉画面和动作片段。其方法主要有以下特点:
– 整体框架:形成“看—想—做”的自回归闭环,通过因果式Transformer理解当前情境,同时预测下一张画面和下一步动作,形成“预测—执行—再预测”的循环,避免两阶段方法的分布偏移。
– 生成细节:在连续空间直接建模,采用统一条件、双分支生成,逐步细化生成方式,以及轻量动作解码器,避免离散量化误差,使结果更平滑真实。
– 注意力与控制:引入“动作对帧的单向注意力”形成隐式逆运动学,配合KV – cache等增量计算,减小偏差累积,控制长序列滚动时延增长,适合在线控制。
评测结果显示,在maniskill基准中,PAR在PushCube达到100%成功率,总体成绩居第二;在PickCube与StackCube上超过或接近需要动作预训练的强基准方法,总体平均74%。可视化显示预测视频与实际执行在关键动作时序与轨迹上高度一致,注意力图表明模型会有针对性地聚焦关键区域。
PAR证明了无需动作预训练,即可同时实现未来视频预测与一致的动作轨迹生成,为解决示教数据稀缺提供了新路径。
原文和模型
【原文链接】 阅读原文 [ 2090字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★