WHALE来了,南大周志华团队做出更强泛化的世界模型

WHALE来了,南大周志华团队做出更强泛化的世界模型

 

文章摘要


【关 键 词】 WHALE框架行为条件retracing-rolloutWhale-STWhale-X

南京大学和南栖仙策的研究者们提出了WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning)框架,旨在学习可泛化的具身决策世界模型。WHALE框架包含两种关键技术:行为条件技术和retracing-rollout技术。行为条件技术基于策略条件模型学习,增强模型泛化能力,适应不同行为,减轻分布偏移引起的外推误差。retracing-rollout技术用于有效估计模型想象的不确定性,作为即插即用解决方案,无需更改训练过程。

研究者们还提出了Whale-ST,一个基于时空transformer的可扩展具身世界模型,为现实世界视觉控制任务提供长远想象。在模拟的Meta-World基准和物理机器人平台上的实验表明,Whale-ST在价值估计准确率和视频生成保真度方面优于现有方法。基于retracing-rollout技术的Whale-ST能有效捕获模型预测误差,并使用想象的经验增强离线策略优化。

此外,研究者们还引入了Whale-X,一个在970k个现实世界演示上训练的414M参数世界模型。Whale-X在视觉、动作和任务视角中展示了强大的OOD通用性,并通过扩大预训练数据集或模型参数,在预训练和微调阶段表现出可扩展性。

该工作的主要贡献包括:1)提出WHALE框架,解决世界模型在决策应用中的泛化和不确定性估计挑战;2)提出Whale-ST和Whale-X模型,证明其在模拟和现实世界任务中的可扩展性和泛化性;3)通过实验验证Whale-ST和Whale-X在增强决策方面的效果。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4062字 | 17分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...