推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1

文章摘要
【关 键 词】 视觉问答、物理AI、多模态模型、具身推理、强化学习
在基于物理世界的真实场景中进行视觉问答时,现有的AI模型往往无法识别出参考选项中没有最佳答案的情况。例如,当问题要求预测车辆接下来的行动时,预设选项可能不包括“直行”这一正确答案,导致模型从错误选项中选择。这种错误在自动驾驶等真实任务场景中是不可容忍的,因此物理常识的引入至关重要。
英伟达近日发布了针对物理常识推理优化的新模型套件Cosmos-Reason1,旨在提升多模态大语言模型(LLM)的物理推理能力。该套件包含两个多模态LLM:Cosmos-Reason1-8B和Cosmos-Reason1-56B。这两个模型经过四个阶段的训练:视觉预训练、通用监督式微调(SFT)、物理AI SFT和物理AI强化学习。此外,英伟达还定义了物理常识和具身推理的本体论,并构建了评估多模态LLM物理AI推理能力的基准。
Cosmos-Reason1采用了一种仅解码器的多模态架构,结合视觉编码器和LLM主干,能够统一处理文本、图像和视频等多种模态。视觉编码器采用InternViT-300M-V2.5,动态调整输入图像和视频的分辨率,并生成视觉token。LLM主干则采用了混合Mamba-MLP-Transformer架构,支持高效的并行化训练。
在实验中,Cosmos-Reason1展现了显著的物理常识和具身推理能力。经过物理AI监督式微调后,Cosmos-Reason1-56B在多个基准上的表现甚至略微超过了OpenAI的o1模型。此外,模型在直觉物理推理任务上也取得了显著进步,特别是在空间拼图和物体持久性任务上。然而,模型在时间箭头任务上的表现仍然有限,表明其在时间动态推理方面仍有改进空间。
为了进一步提升模型的物理AI推理能力,英伟达对模型进行了物理AI强化学习(RL)后训练。结果显示,RL能够增强模型在空间、时间和物体持久性方面的推理能力,尽管在RoboFail等高难度基准上的表现仍有待提升。值得注意的是,模型学会了在问题不明确时拒绝所有选项,展现出保守但合理的决策能力。
总体而言,Cosmos-Reason1通过结合物理常识、具身推理和强化学习,显著提升了多模态LLM在物理世界中的推理能力。这一成果为未来在自动驾驶、机器人等领域的应用奠定了重要基础。
原文和模型
【原文链接】 阅读原文 [ 2811字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★