Pokémon Go 公司构建大型地理空间模型,玩家不知不觉贡献了训练数据

AIGC动态1个月前发布 ai-front
263 0 0
Pokémon Go 公司构建大型地理空间模型,玩家不知不觉贡献了训练数据

 

文章摘要


【关 键 词】 增强现实人工智能空间智能神经网络数字现实

Niantic,开发了《Pokémon GO》和《Ingress》等增强现实游戏的公司,正在利用其数百万玩家的数据创建一个能够导航现实世界的AI模型,即大型地理空间模型(LGM)。这个模型通过大规模机器学习理解场景,并将其与全球数百万其他场景联系起来,以实现空间智能,这是AI模型的新前沿。Niantic的视觉定位系统(VPS)已经训练了超过5000万个神经网络,拥有超过150万亿个参数,运行在超过一百万个位置中。LGM将使计算机能够感知、理解和与物理空间交互,成为AR眼镜、机器人、内容创建和自主系统等领域的关键要素。

LGM类似于大型语言模型(LLM),后者通过互联网规模的文本集合训练,能够理解和生成书面语言。LGM则使用数十亿张图像和精确位置数据构建,实现基于位置的空间、结构和物理交互理解。与3D视觉模型相比,LGM能够捕获特定地理位置的3D实体,并理解场景之间的地理关系。这种地理空间智能使模型能够从先前观察中学习,并将知识转移到新位置。

Niantic在过去五年中专注于构建VPS,使用手机中的单个图像确定位置和方向,构建3D地图。VPS使用运动结构技术构建3D视觉地图,并为每个位置构建新型神经地图。这些网络将数千张地图图像压缩为精简的神经表示,并以厘米级精度提供精确定位。Niantic已训练了超过5000万个神经网络,包含超过150万亿个参数。

LGM的愿景超越了当前独立的本地地图系统,通过全球大型模型提炼共同信息,实现跨本地模型的通信和数据共享。LGM能够内化建筑的共同结构,即使对于某个位置而言,Niantic只绘制了入口,LGM也能够根据它之前见过的数千座建筑,对建筑物的背面做出明智的猜测。LGM实现了前所未有的定位稳健性,即使是从VPS从未见过的视点和角度也依旧如此。

LGM不仅用于定位,还编码了丰富的几何、外观和文化信息,实现新的场景表示、操作和创建方式。LGM将与多模态模型交互通信,这些系统协同工作,将以任何单一模型都无法实现的高级方式来理解世界。随着AR眼镜等可穿戴设备变得越来越普遍,世界未来的操作系统将依赖于物理和数字现实的融合,以创建一个以人为中心的空间计算系统。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3533字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...