
文章摘要
【关 键 词】 3D生成、开源模型、高效训练、影视级、技术突破
DreamTech联合南京大学、复旦大学和牛津大学发布的Direct3D-S2 3D生成模型,近日登顶HuggingFace 3D建模应用趋势榜,并在综合榜单上跃居至第4位。这一模型仅需8块GPU进行训练,生成效果远超数百块GPU训练的闭源商用模型,训练效率提升近20倍,token吞吐量从4K提升到256K,直接提高64倍,目标直指影视级别高精细度3D模型生成。Direct3D-S2被誉为“最强开源3D大模型”,在全球3D及AI领域的开发者和爱好者中引起了广泛关注。
3D建模是数字世界的基础手艺,传统建模过程复杂且耗时。近年来,AI技术逐渐替代人工建模,微软、Meta、腾讯、字节跳动等行业巨头纷纷推出AI 3D生成工具,掀起了一场技术热潮。然而,高分辨率3D生成仍面临巨大挑战,主要原因是3D数据的复杂性和AI模型的计算压力。3D模型需要完整表达物体在空间中的形状,细节复杂度呈立方级增长,而主流AI架构Transformer在处理大量细节时,算力需求几乎呈指数爆炸式上升。
Direct3D-S2通过引入空间稀疏注意力机制(Spatial Sparse Attention, SSA),解决了高分辨率3D生成的瓶颈问题。SSA通过自适应3D空间分块策略,让模型只关注真正重要的体素区域,避免大量冗余计算,即使面对1024³的超高分辨率,模型也能轻松处理数十万级tokens,token吞吐量提高64倍。同时,SSA基于空间几何连续性概率分布对tokens进行智能分块,确保局部结构完整、表面平滑自然,避免了传统方法中常见的“断裂”或“扭曲”现象。
此外,Direct3D-S2还引入了适配SSA的全新架构,包括稀疏SDF VAE和稀疏DiT,实现了从输入到输出的全流程效率提升。Direct3D-S2首次将3D生成表征统一到SDF(符号距离函数)体素场中,无需依赖传统的点云、多视角图像或隐式空间等复杂转换过程,简化了训练流程,将模型训练的稳定性和训练速度提升到极致。Direct3D-S2支持基于3D几何空间的multi-scale训练与推理,仅用8块A100 GPU,2天即可完成训练,整体效率提升4倍以上。
在生成质量上,Direct3D-S2在多项关键指标对比中全面超越当前主流开源3D生成模型,在所有数值评测中全部领先。无论是细节丰富程度、几何精度、表面光滑度,还是整体结构的一致性,Direct3D-S2都展现出显著优势。在由数十位艺术家与开发者参与的盲测评估中,Direct3D-S2也在“图像一致性”与“几何质量”两个核心维度上获得最高评分,实际效果真正打动了专业人士。
Direct3D-S2不仅是目前最强的开源3D生成大模型之一,更是首个在质量和实用性上真正接近工业级应用的开源方案。DreamTech秉持“技术共享”的理念,已将Direct3D-S2全面开源,并采用最宽松的MIT License协议,允许自由用于商业用途,赢得了行业的广泛赞誉。DreamTech还提供了多个开放入口,包括GitHub项目地址、技术详情与论文访问、HuggingFace在线体验Demo等,助力全球开发者、艺术家和企业快速上手与落地应用。
Direct3D-S2不仅是一次技术突破,更是推动3D生成普及化的重要一步。DreamTech深耕于3D及4D AI技术领域,致力于用创新的产品和服务提升全球AIGC创作者及消费者的使用体验,公司的愿景是利用先进的AI技术打造与真实世界无缝对接、实时互动的时空智能体验,并通过模拟真实世界的复杂性和多样性实现通用人工智能(AGI)。
原文和模型
【原文链接】 阅读原文 [ 2133字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★