极佳科技朱政:世界模型会进化成 VLA 的下一代|具身先锋十人谈

AI-Agent5小时前发布 aitechtalk
61 0 0
极佳科技朱政:世界模型会进化成 VLA 的下一代|具身先锋十人谈

 

文章摘要


【关 键 词】 具身智能世界模型真机数据仿真数据VLA模型

具身智能领域的数据问题一直是行业难题,真机数据成本高、效率低,仿真数据存在 Sim2Real 鸿沟,而世界模型成为解决这一问题的新探索方向。

CV 研究者朱政从自动驾驶转向具身智能,他认为人脸识别是单点问题,自动驾驶是系统问题,具身智能则触及更本质的改变物理世界的问题。他找到的转型切点是世界模型,其团队此前为车企提供基于世界模型的仿真环境,学术成果 DriveDreamer 入选 ECCV 2024 最具影响力论文榜单。去年团队转战具身智能的世界模型,发布了基于世界模型数据训练的 VLA —— GigaBrain,任务成功率提升 50 个百分点,世界模型平台 GigaWorld 也即将发布,极佳科技半年内完成三轮融资。

朱政对世界模型的定义关注其本质——未来预测能力。短期内,世界模型是“驯化” VLA 的容器,长期来看二者可能融为一体。世界模型的发展分三个阶段:现阶段生成训练数据,下一步为 agent 提供闭环仿真环境,最终进化成 VLA 的下一代,整个过程约需 3 – 5 年。世界模型前期做全局基模,后期根据具体任务定制垂直模型,通过步数蒸馏、参数蒸馏和量化部署实现低延迟和高保真,与英伟达 Cosmos 相比可实现 10 倍加速。

在不同领域,自动驾驶的世界模型在训练数据生成和闭环仿真方面较成熟,能解决实采数据长尾问题,但构建依赖视频生成技术会产生幻觉,可引入重建模型辅助。而具身智能场景依赖精细操作,对世界模型的几何精度和物理合理性要求更高。

具身智能的世界模型有 3D 和 2D 两种。目前将其建模成 4D 较自然,但本质不应局限于此,未来可能引入超越 4D 的变量。让世界模型学习物理规律,视频世界模型采用端到端训练隐式学习,3D 世界模型绑定显式物理属性。维护持久化环境记忆有显式和隐式两种方式,未来可引入 RAG 技术突破限制。3D 世界模型适用于移动导航场景,视频世界模型适用于操作场景,二者可融合使用。

真机数据真实但采集成本高、周期长,世界模型可看作新一代仿真器,能减少 Sim to Real 的 gap,丰富数据金字塔层次。目前训练世界模型主要用互联网真实物理场景视频和多视角 3D 数据,与 VLA 形成相互供给的数据循环。现阶段世界模型是“驯化” VLA 的容器,未来可能融合。

在行业竞争中,具身大脑初创公司有综合优势,现阶段本体和大脑开发高度耦合。极佳科技做本体是为迭代世界模型到 VLA 的闭环链路,已接触终端客户提供软硬件配套方案,未来会分阶段实施“世界模型平台 + 卖解决方案”的战略,其认为世界模型产生的训练数据有望达到大语言模型互联网数据级别。

原文和模型


【原文链接】 阅读原文 [ 6446字 | 26分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...