文章摘要
【关 键 词】 空间智能、神经网络、AR技术、全球图像、智能定位
宝可梦GO团队宣布构建了一个大规模地理空间模型LGM,标志着空间智能领域的一大进步。LGM通过训练超过5000万个神经网络,参数规模超过150万亿,使计算机能够以类似人类的方式理解空间。这一模型能够智能地填补地球上尚未全面扫描的领域的空白,为AR眼镜、机器人、内容创建和自主系统等领域带来突破。
LGM利用大规模机器学习理解场景,并与全球数百万个场景相连,模仿人类根据以往经验填补细节的能力。这一模型不仅能够定位和理解空间,还能与空间互动,预示着空间智能将成为未来世界的操作系统。LGM通过数十亿张全球图像构建,使计算机能够基于位置理解空间、结构和物理交互,实现了从基于文本的模型向基于3D数据的模型的转变。
Niantic的视觉定位系统VPS是LGM的一部分,通过用户扫描构建,使用户能够以厘米级精度定位自己。VPS通过运动结构技术和神经网络构建3D视觉地图和神经地图,将数千张地图图像压缩成精简的神经表示,实现厘米级精度定位。Niantic的愿景是超越独立本地地图系统,构建一个更大规模的模型,实现全球范围内的通信和数据共享。
LGM不仅是一个定位模型,它将几何、外观和文化信息编码到场景级特征中,启用场景表示、操控和创造的新方式。未来的智能体系统将不再是孤立的存在,不同类型的基础模型将相互补充,实现对物理世界的感知、理解和行动。随着AR眼镜等可穿戴设备变得更加普及,我们正迈向一个由物理和数字现实无缝融合的未来。
原文和模型
【原文链接】 阅读原文 [ 3460字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...