模型信息
【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 3D生成、视频扩散、多视图一致性、微调SVD、计算机视觉
Stability AI最近发布了新的3D生成模型SV3D,该模型基于视频扩散模型,能够通过一张图生成对应的高质量3D模型。与之前的Stable Zero123相比,SV3D在模型质量和功能上有了显著提升。SV3D利用视频模型的功能性,生成效果超越了同类模型,展示出出色的理解能力。此外,Stability还推出了SV3D的两个进阶版本SV3D_u和SV3D_p,分别用于生成轨道视频和允许创建3D视频沿着指定的摄像机路径。SV3D目前可用于商业目的,非商业用户可以在Hugging Face上下载模型权重。
在计算机视觉领域,单图像3D对象重建一直是一个具有挑战性的问题,具有广泛的应用。SV3D基于视频扩散模型,能够生成具有显式相机姿态条件的给定对象的多个新视图,具有出色的多视图一致性和泛化能力。SV3D的工作原理是首先生成一致的多视图图像,然后优化3D表示,最终生成高质量的3D网格。通过改进的3D优化方法,SV3D能够可靠地从单个图像输入输出高质量的3D网格,在NVS和3D重建方面表现出色。
SV3D的设计思想是重新利用视频扩散模型中的时间一致性,实现对象的空间3D一致性。SV3D的架构建立在SVD的基础上,通过微调SVD实现围绕3D物体生成轨道视频。作者对SVD进行了调整,包括删除不相关的矢量条件、连接条件图像到UNet、提供CLIPembedding矩阵给Transformer块等。研究人员还设计了静态和动态轨道来研究相机姿态调节的效果,以及使用三角形CFG缩放来改善生成轨道中的细节。最终,作者训练了三个从SVD微调的图像到3D视频模型,分别用于生成静态轨道视频、动态轨道视频以及在动态轨道上进行调整。通过在Objaverse数据集上训练,SV3D在3D生成方面表现出色,达到了目前最好的性能。
综上所述,SV3D是一个基于视频扩散模型的高质量3D生成模型,具有出色的多视图一致性和泛化能力,在NVS和3D重建方面表现优异。其设计思想是利用视频模型中的时间一致性实现空间3D一致性,通过微调SVD来生成高质量的3D网格。SV3D的发布为计算机视觉领域带来了新的突破,为单图像3D对象重建问题提供了有效的解决方案。
原文信息
【原文链接】 阅读原文
【阅读预估】 1833 / 8分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。