被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界

AIGC动态6天前发布 AIera
177 0 0
被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界

 

文章摘要


【关 键 词】 空间智能机器人开源模型具身智能3D场景

群核科技近期开源了空间理解模型SpatialLM,该模型通过视频理解物理世界的几何关系,并将其转化为机器能读懂的指令,相当于教会机器用人类直觉感知世界。SpatialLM的核心功能是将普通手机拍摄的视频转化为结构化3D场景布局,生成包含房间布局、家具摆放、通道宽度等信息的3D空间数据。这一技术不仅降低了3D数据采集的成本,还显著提升了机器人训练的效率。通过SpatialLM,机器人能够理解三维空间中的物体位置、尺寸和类别信息,从而在虚拟数字道场SpatialVerse中进行避障、抓取等技能训练,实现了从空间认知到行动交互的训练闭环

SpatialLM的技术原理基于大语言模型(LLM),通过MASt3R-SLAM重建3D点云,并将点云编码为紧凑的特征,最终生成描述场景的代码。这些代码可以转换为结构化3D布局,为机器人提供了一份详尽而精准的「世界地图」。与传统的2D图像标注或激光雷达扫描相比,SpatialLM的创新之处在于其通用性,无需借助智能穿戴设备,普通手机或相机拍摄的视频即可作为数据来源。未来,SpatialLM还将支持自然语言交互模式,赋予具身代理在复杂环境中执行复杂任务的能力。

具身智能行业目前面临高热度但落地困难的局面,核心问题在于从感知到行动的智能闭环缺失。机器人虽然能够「看到」世界,但无法基于所见做出合理决策和行动,导致其在真实环境中表现不佳。群核科技通过SpatialLM和SpatialVerse的结合,构建了从空间认知理解到空间行动交互的完整闭环系统,解决了这一难题。SpatialLM不仅能够识别物体及其基本属性,还能通过语言理解层赋予物体功能和用途,帮助机器人理解「物体怎么用」,避免违反基本操作逻辑的行为。

此外,群核科技在过去十余年积累的室内三维交互数据成为了具身智能训练的「稀缺石油」,这些高质量的结构化数据和高逼真度的模拟器构成了具身智能训练的基础设施。通过SpatialLM和SpatialVerse的协同工作,现实场景被转化为可用于训练的结构化数据,并进一步扩增为海量训练样本,缩小了仿真与现实之间的差距。机器人可以在这些仿真场景中学习人类操作,如开关冰箱门、叠被子等,从而具备「常识推理」能力,能够在复杂现实环境中安全、灵活地完成任务

群核科技的方案不仅降低了空间智能训练的成本,还将其平民化,使得任何开发者只需手机和电脑即可为机器人创建物理正确的训练环境。通过SpatialLM和SpatialVerse的双平台方案,群核科技重新定义了机器与现实的关系,未来或将迎来机器人物种的大爆发时刻,届时「数字地球」将成为机器人的训练场,帮助它们在进入真实地球之前先「生活」一遍

原文和模型


【原文链接】 阅读原文 [ 3791字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...