英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

 

文章摘要


【关 键 词】 AI物理世界推理模型具身智能多模态

英伟达团队在GTC大会上发布了新的物理世界大模型Cosmos-Reason1,该模型专注于提升AI系统与物理世界交互的推理能力。作为Cosmos系列的一部分,Cosmos-Reason1强调通过长思维链(Long CoT)的推理过程生成自然语言中的行为决策,旨在解决AI在物理世界中的感知、理解与执行复杂动作的问题。模型分为80亿参数的Cosmos-Reason1-8B和560亿参数的Cosmos-Reason1-56B,训练过程包括视觉预训练、通用SFT、物理AI SFT以及物理AI强化学习后训练四个阶段。

物理世界中的AGI(通用人工智能)与云端AGI有显著不同,前者需要具备物理常识和基于物理世界的具体推理能力。英伟达团队将物理常识分为空间、时间和基础物理三大类,并进一步细化为16个子类别,涵盖了物理定律下的运行机制与AI交互方式。此外,具身推理需要处理复杂的感官输入、预测行动效果、遵循物理约束并从交互中学习。这些能力使得AI系统能够在物理世界中动态改进其行为,生成符合物理世界要求的反应。

Cosmos-Reason1采用纯解码的多模态大模型架构,并结合了Mamba-MLP-Transformer混合架构,以弥补Transformer在空间理解上的不足。模型训练中使用了张量并行度和流水线并行度,支持更长的视频训练。数据采集方面,团队使用了总计120M的图像、视频与交互数据进行预训练,8M的图像和视频数据用于通用SFT。此外,团队还探索了基于人工注释和视频自监督学习的奖励类型,以增强模型在物理世界中的推理能力。

在物理常识和具身推理的基准测试中,Cosmos-Reason1表现出色,尤其在具身推理上显著强于其他VLM模型,效果提升超过10%。在直观物理推理任务中,Cosmos-Reason1-8B在时间箭头、空间谜题与物体持久性三个任务中都取得了显著改进,而现有的许多VLM模型在这些任务上表现不佳。这些结果表明,Cosmos-Reason1在处理物理世界中的复杂推理任务上具有明显优势。

总体而言,Cosmos-Reason1的发布标志着AI在物理世界交互领域的进一步突破,尤其是在具身智能和多模态推理方面的进展。通过结合物理常识与具身推理能力,该模型为未来物理世界中的AGI发展提供了新的技术路径。

原文和模型


【原文链接】 阅读原文 [ 2102字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...