CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法

AIGC动态7个月前发布 almosthuman2014
1,050 0 0
CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法

 

文章摘要


【关 键 词】 物体姿态估计统一框架FoundationPose神经隐式表示6D姿态跟踪

物体姿态估计是机器人操纵和混合现实等应用领域的关键技术。

传统的实例级方法依赖于纹理CAD模型生成训练数据,但无法适用于未见过的新物体;而类别级方法虽然摒弃了这些假设,却需要额外的姿态标准化和检查步骤。

为了克服这些限制,英伟达的研究团队提出了一个名为FoundationPose统一框架,该框架能够使用RGBD图像对新颖物体进行姿态估计和跟踪,无论是在基于模型还是无模型的设置下。

FoundationPose通过大规模合成训练、大型语言模型(LLM)辅助、基于Transformer的新颖架构和对比学习,实现了强大的泛化能力。

研究团队还利用神经隐式表示技术,有效地填补了基于模型和无模型设置之间的差距,使得FoundationPose能够使用少量参考图像进行高效的新颖视图合成,并且渲染速度比以往的方法更快。

该研究成果被评为CVPR 2024满分论文,并且相关代码已经开源。

FoundationPose的主要贡献包括提出了一个统一的框架,支持新颖物体的姿态估计和跟踪;开发了LLM辅助的合成数据生成流程,显著提高了数据量和多样性;提出了新颖的基于Transformer的网络架构设计和对比学习公式,实现了仅使用合成数据训练时的强大泛化能力;在多个公共数据集上的性能大幅优于现有方法,并且即使减少了假设,也实现了与实例级方法可比的结果。

FoundationPose框架的工作流程包括利用大规模3D模型数据库、LLM和扩散模型生成大量合成数据;使用神经隐式表示进行物体建模,以便于新颖视图的RGBD渲染;通过初始化全局姿态并通过精细化网络进行改进,最后通过姿态选择模块预测姿态得分,选择最佳姿态作为输出。

在实验评估中,FoundationPose在LINEMOD、OccludedLINEMOD、YCB-Video、T-LESS和YCBInEOAT等5个数据集上进行了测试,这些数据集包含了各种具有挑战性的场景和物体属性。结果表明,FoundationPose在无模型和基于模型的设置以及6D姿态估计和跟踪任务上均表现出色,且无需任何微调即可适用于新颖物体。

论文的第一作者是华人温伯文博士,他在机器人感知和3D视觉领域有着深入的研究,并曾在多个知名实验室实习和工作,获得过RSS最佳论文奖提名。温伯文博士的个人主页提供了更多关于他的研究和成就的信息。

原文和模型


【原文链接】 阅读原文 [ 2682字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...