模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 3D重建、MVDiffusion++、视觉系统、高分辨率、多视图
<新智元报道了一种受人类视觉系统启发的3D重建技术,名为MVDiffusion++>。这项技术结合了计算方法的高保真度和人类视觉系统的灵活性,能够根据任意数量的无位姿图片生成密集、高分辨率的有位姿图像,实现高质量的3D模型重建。与人类从几张图像中推断3D形状的能力不同,传统的3D重建技术需要数百张物体的图像,估计它们的精确相机参数,并以亚毫米级的精度重建高保真度的3D几何形状。
能够生成高分辨率的密集图像集,用于3D模型重建,无需精确相机姿态。该方法基于扩散模型和“”实现了3D一致性的学习。在新视角合成、单视图重建和稀疏视图重建上都展现了优异性能,超越了现有技术,同时还探索了与文本到图像模型结合的文本到3D应用。
可以根据任意数量的无位姿图片,生成密集、高分辨率的有位姿图像。学习3D一致性是3D建模这项任务的核心,通常需要精确的图像投影模型和/或相机参数。然而,通过2D潜在图像特征之间的自注意力实现3D学习,无需投影模型或相机参数。一个简单的训练策略进一步实现密集和高分辨率的多视图图像生成。
的生成目标是一组密集(32张)且高分辨率(512×512像素)的图像,这些图像位于球体上均匀的2D网格点上。输入条件是一张或几张没有相机姿态的图像,其中视觉重叠可能极小或根本没有。最多支持10张输入分辨率为512×512的图像。
是一种多视图扩散模型,其结构包括一个用于单视图或稀疏视图输入图像的条件分支和一个用于输出图像的生成分支。正向扩散过程通过一个微调的VAE将所有输入/输出图像及其前景掩码转换为64×64的隐式空间Z,并为每个特征Z添加线性高斯噪声。反向扩散过程使用UNet对所有Z_i(t)进行降噪,包括全局自注意机制、交叉注意机制和CNN层。
为了应对训练中的可扩展性挑战,团队提出了一种简单但有效的,在训练期间随机丢弃每个对象的32个视图中的24个,显著减少了训练时的内存消耗。在测试时,运行整个架构并生成32个视图。
在objaverse上进行训练,并在Google Scanned Object测试中展示了优异的实验结果。在单视图重建和稀疏多视图重建实验中,的性能明显优于现有技术,如SyncDreamer、Wonder3D和Open-LRM等。新方法能够从几张物体快照中获得高质量的3D模型,为单视图和稀疏视图对象重建设置了新的性能标准。
原文信息
【原文链接】 阅读原文
【阅读预估】 2059 / 9分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。