WHALE来了，南大周志华团队做出更强泛化的世界模型

AIGC动态9个月前发布 almosthuman2014

2,137 0 0

文章摘要

【关键词】 WHALE框架、行为条件、retracing-rollout、Whale-ST、Whale-X

南京大学和南栖仙策的研究者们提出了WHALE（World models with beHavior-conditioning and retrAcing-rollout LEarning）框架，旨在学习可泛化的具身决策世界模型。WHALE框架包含两种关键技术：行为条件技术和retracing-rollout技术。行为条件技术基于策略条件模型学习，增强模型泛化能力，适应不同行为，减轻分布偏移引起的外推误差。retracing-rollout技术用于有效估计模型想象的不确定性，作为即插即用解决方案，无需更改训练过程。

研究者们还提出了Whale-ST，一个基于时空transformer的可扩展具身世界模型，为现实世界视觉控制任务提供长远想象。在模拟的Meta-World基准和物理机器人平台上的实验表明，Whale-ST在价值估计准确率和视频生成保真度方面优于现有方法。基于retracing-rollout技术的Whale-ST能有效捕获模型预测误差，并使用想象的经验增强离线策略优化。

此外，研究者们还引入了Whale-X，一个在970k个现实世界演示上训练的414M参数世界模型。Whale-X在视觉、动作和任务视角中展示了强大的OOD通用性，并通过扩大预训练数据集或模型参数，在预训练和微调阶段表现出可扩展性。

该工作的主要贡献包括：1）提出WHALE框架，解决世界模型在决策应用中的泛化和不确定性估计挑战；2）提出Whale-ST和Whale-X模型，证明其在模拟和现实世界任务中的可扩展性和泛化性；3）通过实验验证Whale-ST和Whale-X在增强决策方面的效果。