Stable Video 3D震撼上线，视频扩散模型史诗级提升！4090可跑，权重已开放

AIGC动态2年前 (2024)发布 AIera

3,702 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

Stability AI最近发布了新的3D生成模型SV3D，该模型基于视频扩散模型，能够通过一张图生成对应的高质量3D模型。与之前的Stable Zero123相比，SV3D在模型质量和功能上有了显著提升。SV3D利用视频模型的功能性，生成效果超越了同类模型，展示出出色的理解能力。此外，Stability还推出了SV3D的两个进阶版本SV3D_u和SV3D_p，分别用于生成轨道视频和允许创建3D视频沿着指定的摄像机路径。SV3D目前可用于商业目的，非商业用户可以在Hugging Face上下载模型权重。

在计算机视觉领域，单图像3D对象重建一直是一个具有挑战性的问题，具有广泛的应用。SV3D基于视频扩散模型，能够生成具有显式相机姿态条件的给定对象的多个新视图，具有出色的多视图一致性和泛化能力。SV3D的工作原理是首先生成一致的多视图图像，然后优化3D表示，最终生成高质量的3D网格。通过改进的3D优化方法，SV3D能够可靠地从单个图像输入输出高质量的3D网格，在NVS和3D重建方面表现出色。

SV3D的设计思想是重新利用视频扩散模型中的时间一致性，实现对象的空间3D一致性。SV3D的架构建立在SVD的基础上，通过微调SVD实现围绕3D物体生成轨道视频。作者对SVD进行了调整，包括删除不相关的矢量条件、连接条件图像到UNet、提供CLIPembedding矩阵给Transformer块等。研究人员还设计了静态和动态轨道来研究相机姿态调节的效果，以及使用三角形CFG缩放来改善生成轨道中的细节。最终，作者训练了三个从SVD微调的图像到3D视频模型，分别用于生成静态轨道视频、动态轨道视频以及在动态轨道上进行调整。通过在Objaverse数据集上训练，SV3D在3D生成方面表现出色，达到了目前最好的性能。

综上所述，SV3D是一个基于视频扩散模型的高质量3D生成模型，具有出色的多视图一致性和泛化能力，在NVS和3D重建方面表现优异。其设计思想是利用视频模型中的时间一致性实现空间3D一致性，通过微调SVD来生成高质量的3D网格。SV3D的发布为计算机视觉领域带来了新的突破，为单图像3D对象重建问题提供了有效的解决方案。

原文信息

【原文链接】 阅读原文
【阅读预估】 1833 / 8分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。