看3.2亿帧视频学会3D生成，智源开源See3D：只需单图即可生成3D场景

1,530 0 0

文章摘要

斯坦福大学教授李飞飞团队WorldLabs推出了首个空间智能模型，能够通过单张图片生成逼真的3D世界，标志着空间智能领域的重要进展。与此同时，国内智源研究院发布了首个基于大规模无标注互联网视频学习的3D生成模型See3D，该模型支持从文本、单视图和稀疏视图到3D的生成，并可进行3D编辑与高斯渲染。

See3D采用视觉条件技术，依赖视频中的视觉线索生成多视角图像，不依赖昂贵的3D或相机标注，能从互联网视频中高效学习3D先验。模型支持零样本和开放世界的3D生成，无需微调即可执行3D编辑、表面重建等任务，具有广泛的3D创作应用潜力。相关模型、代码、Demo均已开源。

See3D的效果展示包括解锁3D互动世界、基于稀疏图片的3D重建、开放世界3D生成和基于单视图的3D生成。研究动机在于3D数据的积累规模有限，采集过程耗时且成本高昂，而视频来源广泛且易于获取，具备揭示3D结构的潜力。

See3D提供了一套系统化的解决方案，包括数据集、模型和3D生成框架。团队构建了高质量、多样化的大规模多视角图像数据集WebVi3D，涵盖1600万个视频片段的3.2亿帧图像。See3D引入新的视觉条件，通过向掩码视频数据添加时间依赖噪声，生成2D归纳视觉信号，支持可扩展的多视图扩散模型训练，实现”仅通过视觉获得3D”的目标。

See3D的优势在于数据扩展性、相机可控性和几何一致性。模型训练数据源自海量互联网视频，构建的多视图数据集在规模上实现数量级提升。模型支持任意复杂相机轨迹下的场景生成，提供灵活多样的视角操控能力。模型支持长序列新视角的生成，保持前后帧视图的几何一致性，并遵循真实三维几何的物理规则。

通过扩大数据集规模，See3D为突破3D生成的技术瓶颈提供了新思路，所学习到的3D先验为一系列3D创作应用提供支持。希望这项工作能引发3D研究社区对大规模无相机标注数据的关注，避免高昂的3D数据采集成本，缩小与现有强大闭源3D解决方案之间的差距。