机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

AIGC动态21小时前发布 almosthuman2014
132 0 0
机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA

 

文章摘要


【关 键 词】 世界模型四足机器人强化学习Sim-to-Real迁移机器人控制

ByteDance Research与上海交通大学合作提出的WMP框架,首次将世界模型技术应用于四足机器人视觉控制领域,为解决传统特权学习方法的局限性提供了新思路。通过构建能够预测未来感知信息的世界模型,该框架实现了从模拟环境到真实机器人的零样本策略迁移,在宇树A1机器人上创造了多项运动控制性能记录。

传统特权学习方法依赖人工设计的特权信息(如高度图扫标点),存在环境适应性差、训练流程复杂等缺陷。WMP框架通过引入世界模型,模仿生物体的心智建模机制,利用RSSM(随机循环状态模型)架构同步处理视觉和本体感知信息。该模型以k分之一的低频运行策略,既满足真机算力限制,又模拟了生物神经系统中不同控制层级的频率特征。训练过程中,世界模型与策略网络通过PPO算法同步优化,避免了传统两阶段训练带来的性能损失。

实验验证显示,WMP在六类模拟地形(斜坡、楼梯、间隙等)训练后,其策略在真实机器人上展现出卓越的泛化能力。在最具挑战性的间隙跨越任务中,A1机器人成功跨越85cm宽度,跳上55cm高台,穿越22cm高桥洞,这些指标均达到当前领域最高水平。对比实验表明,WMP在速度追踪误差指标上较传统特权学习方法降低30%-50%,且在包含空中障碍物等复杂场景中表现出更强的环境适应性。

验证实验揭示了世界模型的关键作用机制:虽然对整体环境预测存在偏差,但对决策相关的关键特征(如障碍物间隙角度)能保持高精度预测。这种特征解耦能力解释了模型在跨域迁移中的有效性。通过分析模拟与真实数据的预测轨迹,研究团队发现世界模型能够自动提取跨域不变特征,这为提升Sim-to-Real迁移的可靠性提供了理论依据。

该研究不仅验证了世界模型在机器人控制领域的应用潜力,更开创了基于内部建模的感知-决策新范式。WMP框架的成功表明,通过建立对环境动态的深度理解,智能体可以在不依赖人工先验知识的情况下实现复杂决策,这为未来具身智能系统的开发提供了重要技术路径。研究团队开源了相关代码和数据集,为后续研究建立了可复现的基准。

原文和模型


【原文链接】 阅读原文 [ 2128字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...