Pokémon Go 公司构建大型地理空间模型，玩家不知不觉贡献了训练数据

1,460 0 0

文章摘要

Niantic，开发了《Pokémon GO》和《Ingress》等增强现实游戏的公司，正在利用其数百万玩家的数据创建一个能够导航现实世界的AI模型，即大型地理空间模型（LGM）。这个模型通过大规模机器学习理解场景，并将其与全球数百万其他场景联系起来，以实现空间智能，这是AI模型的新前沿。Niantic的视觉定位系统（VPS）已经训练了超过5000万个神经网络，拥有超过150万亿个参数，运行在超过一百万个位置中。LGM将使计算机能够感知、理解和与物理空间交互，成为AR眼镜、机器人、内容创建和自主系统等领域的关键要素。

LGM类似于大型语言模型（LLM），后者通过互联网规模的文本集合训练，能够理解和生成书面语言。LGM则使用数十亿张图像和精确位置数据构建，实现基于位置的空间、结构和物理交互理解。与3D视觉模型相比，LGM能够捕获特定地理位置的3D实体，并理解场景之间的地理关系。这种地理空间智能使模型能够从先前观察中学习，并将知识转移到新位置。

Niantic在过去五年中专注于构建VPS，使用手机中的单个图像确定位置和方向，构建3D地图。VPS使用运动结构技术构建3D视觉地图，并为每个位置构建新型神经地图。这些网络将数千张地图图像压缩为精简的神经表示，并以厘米级精度提供精确定位。Niantic已训练了超过5000万个神经网络，包含超过150万亿个参数。

LGM的愿景超越了当前独立的本地地图系统，通过全球大型模型提炼共同信息，实现跨本地模型的通信和数据共享。LGM能够内化建筑的共同结构，即使对于某个位置而言，Niantic只绘制了入口，LGM也能够根据它之前见过的数千座建筑，对建筑物的背面做出明智的猜测。LGM实现了前所未有的定位稳健性，即使是从VPS从未见过的视点和角度也依旧如此。

LGM不仅用于定位，还编码了丰富的几何、外观和文化信息，实现新的场景表示、操作和创建方式。LGM将与多模态模型交互通信，这些系统协同工作，将以任何单一模型都无法实现的高级方式来理解世界。随着AR眼镜等可穿戴设备变得越来越普遍，世界未来的操作系统将依赖于物理和数字现实的融合，以创建一个以人为中心的空间计算系统。