3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目

3D领域DeepSeek「源神」启动!国产明星创业公司,一口气开源八大项目

 

文章摘要


【关 键 词】 开源3D生成大模型技术创新社区

2025年初,DeepSeek-R1的成功在全球范围内掀起了一股开源风潮,特别是在上个月的开源周中,多项核心技术被开放给全球开发者,震撼了整个行业。开源正成为国内外大模型厂商的战略共识,推动着大模型技术的快速迭代。在这一波生成式AI浪潮中,许多公司如MiniMax、月之暗面等,从应用层回归模型层,聚焦底层架构创新,而非仅依赖上层应用变现。这一趋势表明,模型本身的能力突破正成为行业竞争的核心。

3D生成领域,VAST公司以开源先锋的姿态重新划定了行业标准。3月28日,VAST开源了两个3D生成项目——TripoSG和TripoSF。TripoSG是一款基础3D生成模型,在图像到3D生成任务上远超所有闭源模型,而TripoSF则是VAST新一代三维基础模型的基础组件,用于高分辨率的三维重建和生成任务。VAST宣布,TripoSG的权重、推理代码和交互式演示Demo将通过GitHub和Hugging Face提供给AI社区。此外,TripoSF VAE的预训练模型及相关的推理代码也同步开源。

VAST的开源计划不仅限于此,从3月28日到4月18日,他们还将开源一系列3D生成项目,涵盖了三维部件补全模型、通用三维模型绑定生成模型、三维几何精细化模型以及SIGGRAPH Asia 2024 RTL收录的交互式草图生三维模型。再加上此前开源的单张图像生成3D场景模型MIDI以及多视角图像生成模型MV-Adapter,VAST即将展示一套从基础到细节的完整3D AI生成体系。

TripoSG的技术亮点在于其率先将基于校正流(Rectified Flow, RF)的Transformer架构应用于3D形状生成。相较于传统的扩散模型,RF提供了从噪声到数据之间更简洁的线性路径建模,有助于实现更稳定、高效的训练。TripoSG的模型架构融合了包括跳跃连接在内的关键增强设计,以改善跨层特征融合。独立的交叉注意力机制能够高效地注入全局(CLIP)和局部(DINOv2)图像特征,确保输入图像与输出3D形状之间的精准对齐。为了高效扩展模型规模,VAST在Transformer模块中集成了混合专家模型层,显著提升了模型容量。

在3D生成领域,高分辨率、任意拓扑的三维重建是一大难题。VAST推出的新一代三维基础模型TripoSF,其核心是引入一种全新的表示方法——SparseFlex,实现了基于渲染监督的高分辨率(最高可达1024³)、任意拓扑结构的可微分网格重建。SparseFlex相较于以往方法,内存占用大大降低,原生支持任意拓扑,并得益于其可微分属性,可以使用渲染损失进行端到端训练。VAST开发了一种「视锥体感知的分区体素训练」策略,进一步降低训练所需的内存和算力,使得1024³分辨率的训练成为可能。

VAST表示,TripoSF VAE为完整的3D生成系统提供了核心的编解码能力,并基于VAE隐空间构建了Rectified Flow Transformer生成模型,以高效生成高保真的三维模型。在与所有闭源模型的直接较量中,TripoSF的质量达到了SOTA,在多个标准基准测试中,实现了约82%的倒角距离降低和约88%的F-score提升,在精细细节、开放表面以及内部几何结构的捕捉上做到了行业领先。

VAST的开源计划为3D生成领域注入了新的活力,推动了技术的快速迭代和应用的广泛落地。可以预见,在VAST这一波开源之后,3D大模型或许很快达到实用化和商业化的程度,并催生出更多新场景的落地应用

原文和模型


【原文链接】 阅读原文 [ 3681字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...