腾讯、上海科大开源InstantMesh，图片直接生成3D模型

AIGC动态1年前 (2024)发布 AIGCOPEN

2,804 0 0

文章摘要

【关键词】 InstantMesh、3D模型、技术创新、多视图扩散、稀疏视图重建

InstantMesh模型介绍：
腾讯PCG ARC实验室和上海科技大学的研究人员联合开源了创新模型InstantMesh，该模型能够将图片快速转换为3D模型，简化了游戏、广告、家居、虚拟现实等领域的开发流程。

技术优势与测试结果：
InstantMesh在公开数据集Google Scanned Objects、OmniObject3D等上进行了综合测试，结果显示其生成的3D模型在视觉质量和几何精度上都显著优于现有最新方法，如LGM、CRM等。在多视角合成任务上，InstantMesh也明显优于SV3D等知名扩散模型。

技术创新：
InstantMesh的技术创新在于将多视图扩散模型和稀疏视图重建模型相结合使用。首先利用多视角扩散模型生成一组一致的多视角图像，然后利用稀疏视图重建模型直接预测3D网格，整个过程只需要十几秒甚至几秒就能完成。

多视图扩散模型：
多视图扩散模型的主要作用是将一张静态的2D图片中生成一系列新的视角图像，这些图像覆盖了目标物体的多个方向。这有助于InstantMesh捕捉到图片的全方位信息，为后续的3D网格预测打下坚实的基础。

稀疏视图重建模型：
稀疏视图重建模型主要负责将多视图扩散模型生成的视图拼装成3D模型。通过其内部的神经网络架构，提取输入图像的特征，并将其与先前的知识结合起来，以便更好地理解物体的结构和外观。

可微分的等值面提取模块：
为了提高训练效率，并在3D网格表示上应用几何监督信息，InstantMesh还引入了一个可微分的等值面提取模块。这种方法能够直接在网格表面上进行优化，从而提高训练效率和模型生成的质量。

应用前景：
InstantMesh的直接在网格表面进行监督训练的优化方法，避免了体素渲染的高计算消耗，同时能利用全分辨率的RGB图像、深度图和法线图作为训练监督，也使得生成的3D模型更加适合于后续的渲染、编辑和分析等应用。

开源与在线资源：
文章最后提供了InstantMesh的开源地址、在线demo和论文地址，供感兴趣的开发者和研究人员进一步了解和使用。