文章摘要
【关 键 词】 姿态估计、跟踪、神经隐式、对比学习、Transformer
FoundationPose模型是一个用于6D物体姿态估计和跟踪的统一大模型,它能够在基于模型和无模型的设置中对新颖物体进行姿态估计和跟踪。
该模型通过使用RGBD图像,结合大规模合成训练、大型语言模型(LLM)、基于Transformer的架构和对比学习公式,实现了对新颖物体的强大泛化能力。
在多个公共数据集上的评估结果显示,FoundationPose在性能上显著优于现有的专门化方法,并且即使在减少了假设的情况下,也能达到与实例级方法相当的结果。
研究人员提出的主要贡献包括:一个统一的框架用于新颖物体的姿态估计和跟踪;LLM辅助的合成数据生成流程,扩展了3D训练资源的种类;新颖的基于Transformer的网络架构设计和对比学习公式;以及在多个公共数据集上的优越性能。
在方法方面,研究人员利用了神经隐式表示来弥合基于模型和无模型设置之间的差距,实现了有效的新视图合成。他们还开发了一个新颖的合成数据生成流程,利用大规模3D模型数据库、LLM和扩散模型来提高数据量和多样性。此外,研究人员还介绍了神经辐射场物体建模、姿态假设生成和最终输出姿态选取的方法。
实验结果表明,FoundationPose在LINEMOD、OccludedLINEMOD、YCB-Video、T-LESS和YCBInEOAT等数据集上表现出色,这些数据集包含了各种具有挑战性的场景和物体属性。该模型在无模型和基于模型的设置中均未进行微调,仍然取得了优异的性能。
论文的第一作者是华人温伯文博士,他在机器人感知和3D视觉领域有着丰富的研究经验,并曾在多个知名研究机构实习和工作。他的个人主页提供了更多关于他的研究和成就的信息。整个研究工作由英伟达研究院完成。
原文和模型
【原文链接】 阅读原文 [ 2495字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★