CVPR 2024满分论文，英伟达开源BOP排行榜6D物体姿态第一名方法

AIGC动态1年前 (2024)发布 almosthuman2014

2,161 0 0

文章摘要

【关键词】 物体姿态估计、统一框架、FoundationPose、神经隐式表示、6D姿态跟踪

物体姿态估计是机器人操纵和混合现实等应用领域的关键技术。

传统的实例级方法依赖于纹理CAD模型生成训练数据，但无法适用于未见过的新物体；而类别级方法虽然摒弃了这些假设，却需要额外的姿态标准化和检查步骤。

为了克服这些限制，英伟达的研究团队提出了一个名为FoundationPose的统一框架，该框架能够使用RGBD图像对新颖物体进行姿态估计和跟踪，无论是在基于模型还是无模型的设置下。

FoundationPose通过大规模合成训练、大型语言模型（LLM）辅助、基于Transformer的新颖架构和对比学习，实现了强大的泛化能力。

研究团队还利用神经隐式表示技术，有效地填补了基于模型和无模型设置之间的差距，使得FoundationPose能够使用少量参考图像进行高效的新颖视图合成，并且渲染速度比以往的方法更快。

该研究成果被评为CVPR 2024满分论文，并且相关代码已经开源。

FoundationPose的主要贡献包括提出了一个统一的框架，支持新颖物体的姿态估计和跟踪；开发了LLM辅助的合成数据生成流程，显著提高了数据量和多样性；提出了新颖的基于Transformer的网络架构设计和对比学习公式，实现了仅使用合成数据训练时的强大泛化能力；在多个公共数据集上的性能大幅优于现有方法，并且即使减少了假设，也实现了与实例级方法可比的结果。

FoundationPose框架的工作流程包括利用大规模3D模型数据库、LLM和扩散模型生成大量合成数据；使用神经隐式表示进行物体建模，以便于新颖视图的RGBD渲染；通过初始化全局姿态并通过精细化网络进行改进，最后通过姿态选择模块预测姿态得分，选择最佳姿态作为输出。

在实验评估中，FoundationPose在LINEMOD、OccludedLINEMOD、YCB-Video、T-LESS和YCBInEOAT等5个数据集上进行了测试，这些数据集包含了各种具有挑战性的场景和物体属性。结果表明，FoundationPose在无模型和基于模型的设置以及6D姿态估计和跟踪任务上均表现出色，且无需任何微调即可适用于新颖物体。

论文的第一作者是华人温伯文博士，他在机器人感知和3D视觉领域有着深入的研究，并曾在多个知名实验室实习和工作，获得过RSS最佳论文奖提名。温伯文博士的个人主页提供了更多关于他的研究和成就的信息。