LeCun团队新作:在世界模型中导航
文章摘要
【关 键 词】 世界模型、导航能力、条件扩散、视频预测、性能优化
近期,AI领域的研究热点之一是世界模型(World Models),其中Meta FAIR的Yann LeCun团队发布了导航世界模型(Navigation World Models,NWM),这一模型能够适应复杂环境,并基于单张图像生成连续一致的视频。NWM特别强调导航能力,能在已知和未知环境中导航,并执行路径规划。虽然在单图生视频方面略逊于DeepMind的Genie 2,但NWM在导航能力上表现出色。
NWM的技术细节包括提出了一种新的条件扩散Transformer(CDiT),它能够高效扩展到1B参数,同时计算需求小。NWM通过不同机器人智能体的视频和导航动作训练CDiT,实现了最先进的视觉导航性能。此外,NWM还能在无动作和无奖励的视频数据上训练,以提高在未知环境中的视频预测和生成性能。
NWM的数学描述涉及接收当前世界状态和导航操作,然后生成下一个世界状态。它能够模拟动作和时间动态,允许时间偏移最多±16秒。条件扩散Transformer架构是一个时间自回归transformer模型,利用CDiT块实现高效的自回归建模。
在导航规划方面,NWM能够模拟导航轨迹并选择能达到目标的轨迹。它通过最小化能量函数来寻找动作序列,该函数与最大化未归一化的感知相似度得分相对应,并遵循潜在约束。
实验结果显示,NWM在多个数据集上的表现优于其他模型,包括在已知环境和未知环境中的导航能力。消融实验表明,CDiT在具有多达1B个参数的模型中表现更好,同时消耗的FLOP不到×2。此外,NWM在视频预测与合成方面也表现出色,能够根据真实动作预测未来状态,并生成高质量的视频。
总的来说,LeCun团队的NWM研究在导航世界模型和条件扩散Transformer方面做出了重要贡献,展示了在复杂环境中的导航能力和视频预测与合成的性能。
原文和模型
【原文链接】 阅读原文 [ 3356字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★