香港科技大学、Manycor开源空间大模型,超3000颗星

AIGC动态4小时前发布 AIGCOPEN
15 0 0
香港科技大学、Manycor开源空间大模型,超3000颗星

 

文章摘要


【关 键 词】 AIGC三维建模点云数据开源项目语言模型

香港科技大学与Manycore联合开源了一种名为SpatialLM的空间大模型,专注于处理3D点云数据并生成结构化的三维场景理解输出。这一模型的目标是让机器能够像人类一样感知、理解和与室内三维场景互动,这是人工智能领域的一个重要挑战。与二维图像相比,三维场景的理解和建模面临更大的复杂性,尤其是在数据获取、模型训练和计算效率等方面。

传统的三维场景建模方法通常依赖于复杂的网络设计和大量的手动标注数据,但这些方法往往难以扩展到新的场景类型或对象类别。SpatialLM通过将点云数据的特征提取、特征对齐和语言生成紧密结合,实现了从原始三维数据到结构化场景描述的高效转换。这一创新方法显著提升了三维场景建模的效率和准确性。

SpatialLM的前端模块是点云编码器,负责从原始的三维点云数据中提取有意义的特征表示。由于点云数据的不规则性,这一任务尤为复杂。研究团队尝试了多种编码器设计方法,包括基于映射的方法、基于体素的方法和基于点的方法。最终,研究团队选择了基于点的方法,并采用了Sonata编码器,这种编码器通过自监督学习获得强大的特征表示,能够更好地保留点云的几何信息。

在提取点云特征后,研究团队面临的挑战是如何将这些特征与语言模型进行对齐。这一过程对于多模态特征的融合至关重要,因为它需要在保留几何信息的同时,将特征转换为语言模型能够理解和处理的形式。研究团队采用了一个两层的MLP作为投影器,将点云特征映射到与语言模型兼容的特征空间中,实现了多模态特征的无缝融合。

SpatialLM的核心是大模型,负责生成结构化的三维场景描述。研究团队选择了阿里开源的Qwen2.5-0.5B作为基础模型,并在合成数据集上进行了微调。该模型能够从点云输入中生成准确的三维场景描述,包括墙壁、门窗、物体边界框及其语义类别。数据集方面,研究团队从专业室内设计平台获取了大量场景,生成了包含403,291面墙、123,301扇门、48,887扇窗户及412,932个物体实例的大规模合成数据集。这一数据集覆盖了59个常见物体类别,并通过工业级渲染引擎生成带相机轨迹的RGBD图像,确保了数据的真实性和高质量。

模型的训练过程采用了单阶段训练策略,将编码器、投影器和语言模型的所有参数同时进行训练,确保整个系统在训练过程中能够协同优化。实验结果表明,这种单阶段训练策略能够取得最佳的性能,尤其是在三维目标检测任务中,这种策略的重要性更为明显。

总体而言,SpatialLM通过创新的点云处理方法和多模态特征融合技术,显著提升了三维场景建模的效率和准确性,为人工智能在三维场景理解领域的应用提供了新的可能性。

原文和模型


【原文链接】 阅读原文 [ 1349字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...