文章摘要
【关 键 词】 空间智能、3D生成、视觉条件、开源模型、数据集
近期,斯坦福大学教授李飞飞团队推出了首个“空间智能”模型,该模型能够仅通过单张图片生成逼真的3D世界,标志着空间智能领域的一大进步。与此同时,国内智源研究院也发布了首个基于无标注互联网视频学习的3D生成模型See3D。该模型采用视觉条件技术,依赖视频中的视觉线索生成多视角图像,不依赖昂贵的3D或相机标注,能高效从互联网视频中学习3D先验。
See3D模型支持零样本和开放世界的3D生成,无需微调即可执行3D编辑、表面重建等任务,展现了在多种3D创作应用中的广泛适用性。它支持从文本、单视图和稀疏视图到3D的生成,并支持3D编辑与高斯渲染。相关的模型、代码、Demo均已开源。
See3D的研究动机在于,现有的3D数据积累规模有限,采集过程耗时且成本高昂。而视频因其包含多视角关联性和相机运动信息,具备揭示3D结构的潜力。See3D提出“See Video, Get 3D”的理念,旨在通过视频中的多视图信息,让模型像人类一样学习并推理物理世界的三维结构。
See3D提供了一套系统化的解决方案,包括视频数据筛选流程构建的大规模多视角图像数据集WebVi3D,以及引入新的视觉条件技术,通过向掩码视频数据添加时间依赖噪声,生成纯粹的2D归纳视觉信号,支持可扩展的多视图扩散模型训练,实现“仅通过视觉获得3D”的目标。
See3D的优势在于数据扩展性、相机可控性和几何一致性。其训练数据源自海量互联网视频,构建的多视图数据集在规模上实现了数量级的提升。模型可支持在任意复杂的相机轨迹下的场景生成,提供灵活多样的视角操控能力。同时,模型可支持长序列新视角的生成,保持前后帧视图的几何一致性,并遵循真实三维几何的物理规则。
通过扩大数据集规模,See3D为突破3D生成的技术瓶颈提供了新的思路,所学习到的3D先验为一系列3D创作应用提供了支持。希望这项工作能够引发3D研究社区对大规模无相机标注数据的关注,避免高昂的3D数据采集成本,同时缩小与现有强大闭源3D解决方案之间的差距。
原文和模型
【原文链接】 阅读原文 [ 1647字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆