Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

文章摘要
创建和理解3D结构在科学研究中具有重要意义,它不仅承载了丰富的物理与化学信息,还为解构复杂系统、进行模拟预测和跨学科创新提供了重要工具。随着AI技术的发展,大型语言模型(LLM)和大型多模态模型(LMM)的自回归下一token预测能力被用于3D结构的生成与理解,推动了AI for Science的进步。近日,深势科技、北京科学智能研究院及北京大学联合推出了名为Uni-3DAR的开创性大模型,这是世界上首个通过自回归下一token预测任务统一3D结构生成与理解的框架。
Uni-3DAR的核心技术在于其通用的粗到细token化方法,能够将3D结构转化为一维的token序列,并通过自回归方式统一生成与理解任务。实验表明,Uni-3DAR在分子生成、晶体结构生成与预测、蛋白结合位点预测、分子对接和分子预训练等任务中均取得了领先性能,尤其在生成任务中,其性能相对现有扩散模型提升了256%,推理速度提高了21.8倍。此外,Uni-3DAR具备跨尺度能力,既适用于微观的3D分子,也适用于宏观的3D任务。
Uni-3DAR解决了3D结构建模中的两个关键问题:数据表示不统一和建模任务不统一。当前3D结构在不同尺度和类型下采用多种表示方式,导致建模思路割裂,难以兼容。Uni-3DAR通过层次化、由粗到细的token化方法,实现了数据的高效压缩和统一表示,既适用于微观也适用于宏观3D结构建模。同时,Uni-3DAR通过自回归方法统一了生成与理解任务,打破了传统上两类任务独立发展的局面,为构建面向物理世界的通用多模态科学模型奠定了基础。
Uni-3DAR的token化方法包括层次化八叉树压缩、精细结构token化和二级子树压缩。八叉树压缩利用3D结构的稀疏性,递归地将非空格子细分为8个子单元,形成由粗到细的层次结构。精细结构token化通过引入“3D patch”概念,将局部结构细节离散化,统一了微观与宏观结构的表示。二级子树压缩进一步将父节点及其子节点的信息合并为单一token,降低了token数量,提高了计算效率。
Uni-3DAR的自回归框架采用Masked Next-Token Prediction策略,通过复制token并掩码其中一个副本,确保模型能够利用明确的位置信息预测下一个token的内容。这一策略显著提升了预测效果,尽管序列长度翻倍,但推理速度仅下降15%至30%。基于此,Uni-3DAR构建了一个统一的自回归框架,支持生成与理解任务的联合训练,并具备多模态扩展潜力。
实验结果显示,Uni-3DAR在微观3D结构领域的多个任务中表现优异,尤其在生成任务上大幅超过扩散模型,在无监督预训练的理解任务上与双向注意力模型基本持平。未来,Uni-3DAR需要在宏观3D结构任务中进一步验证其通用性和扩展性,并探索融合多种数据类型与任务的联合训练,以提升性能与泛化能力。此外,引入更多模态信息,如蛋白质序列和科学文献知识,将有助于构建具备物理世界理解能力的多模态科学语言模型。
原文和模型
【原文链接】 阅读原文 [ 2945字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★