机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight

机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight

 

文章摘要


【关 键 词】 AIGC机器人生成式开源技术

从2023年的Sora到如今的可灵、Vidu、通义万相,AIGC生成式技术在全球范围内迅速普及,推动了AI应用的落地。这一技术不仅在数字世界中展现了强大的生成能力,还在具身智能机器人大模型领域取得了显著进展。清华大学叉院的ISRLab和星动纪元联合开发的AIGC生成式机器人大模型VPP(Video Prediction Policy)便是这一领域的杰出代表。VPP利用预训练视频生成大模型,将AIGC的魔力从数字世界引入具身智能的物理世界,被誉为“机器人界的Sora”。

VPP通过大量互联网视频数据进行训练,直接学习人类动作,极大减少了对高质量机器人真机数据的依赖,并且能够在不同人形机器人本体之间自如切换。这一技术有望加速人形机器人的商业化落地。在ICML2025的Spotlight论文中,VPP凭借其创新性从超过12000篇投稿中脱颖而出,成为仅有的2.6%获奖论文之一。VPP将视频扩散模型的泛化能力转移到通用机器人操作策略中,巧妙解决了diffusion推理速度的问题,开创性地让机器人实时进行未来预测和动作执行,显著提升了机器人策略的泛化性。目前,VPP的论文、项目和开源代码均已公开。

在AI大模型领域,基于自回归的理解模型和基于扩散的生成模型是两种主流方法,分别以GPT和Sora为代表。VPP作为生成式技术与机器人结合的产物,在底层的感知和控制方面具有独特优势。VPP的学习框架分为两个阶段:第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过Video Former和DiT扩散策略进行动作学习。这一设计使得VPP能够提前预知未来的场景,让机器人“看着答案”行动,大大增强了泛化能力。

VPP在高频预测和执行方面也表现出色。通过有效提取视频模型中间层的表征,单步去噪的预测已经蕴含大量未来信息,使得模型预测时间小于150ms,控制频率超过50Hz。此外,VPP能够直接学习各种形态机器人的视频数据,显著降低了数据获取成本,并提高了模型的泛化能力。在Calvin ABC-D基准测试中,VPP实现了4.33的任务完成平均长度,接近满分5.0,相较于先前技术提升了41.5%。

在真实世界的测试中,VPP展现出了惊人的多任务学习能力和泛化能力。在星动纪元单臂+仿人五指灵巧手XHAND平台上,VPP能够使用一个网络完成100+种复杂灵巧操作任务,例如抓取、放置、堆叠、倒水、工具使用等。此外,VPP的预测视觉表示在一定程度上是可解释的,开发者可以通过预测的视频提前发现失败的场景和任务,进行针对性的调试和优化。

尽管VPP作为首个AIGC生成式机器人大模型取得了显著进展,但它与PI等VLA大模型之间仍存在相互促进和借鉴的空间。随着行业不断开源优质模型与技术,机器人技术将迈向一个崭新的阶段,具身AGI也将沿着这条创新之路大步走来。未来,一个充满无限可能的智能世界正在向我们招手。

原文和模型


【原文链接】 阅读原文 [ 1954字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...