英伟达开源通用机器人大模型—GR00T N1

AIGC动态4天前发布 AIGCOPEN
231 0 0
英伟达开源通用机器人大模型—GR00T N1

 

文章摘要


【关 键 词】 AI机器人开源大模型多模态

全球AI领导者英伟达在“GTC 2025”开发者大会上宣布开源人形机器人通用大模型GR00T N1,该模型能够处理多模态数据,包括语言、图像和视频,适用于家务、工厂等多样化环境中的复杂操作任务。GR00T N1的核心架构采用了模拟人类思维的“快慢思考”模式,通过扩散变换器模块(System 1)和视觉-语言模块(System 2)的协作,显著提升了机器人的动作指令准确率。

视觉-语言模块是GR00T N1的“大脑”,负责处理和理解输入的图像与语言指令。该模块在互联网规模数据上进行了预训练,具备强大的视觉和语言处理能力。当机器人接收到任务指令时,例如“拿起红色苹果并将其放入篮子”,视觉-语言模块会对输入的图像进行编码,将场景中的物体、背景等视觉信息转化为图像tokens,同时对语言指令进行处理,将其转化为文本标记。这些图像和文本标记随后被送入Eagle-2 VLM的中间层进行联合编码,生成包含任务语义和视觉上下文信息的特征表示。这些特征表示不仅包含了对任务目标的理解,还融合了对环境的感知,为后续的动作生成提供了丰富的语义信息。

扩散变换器模块(System 1)则相当于GR00T N1的“四肢”,负责根据视觉-语言模块提供的信息生成具体的动作指令。该模块基于扩散变换器(DiT)架构,通过动作流匹配技术进行训练。它接收来自视觉-语言模块的特征表示,以及机器人自身的状态信息,并将其与动作标记结合。在训练过程中,模型会学习如何从带有噪声的动作标记中逐步去除噪声,最终生成符合任务要求的动作序列。这一过程类似于人类在执行任务时的快速反应机制,能够根据当前的感知信息和任务目标,迅速做出相应的动作调整。扩散变换器模块在生成动作时,会考虑机器人的物理特性,确保生成的动作在物理上是可行的,并且能够高效地完成任务。

在实际运行中,这两个模块紧密协作。视觉-语言模块通过深度理解任务指令和环境信息,为扩散变换器模块提供清晰的任务目标和环境上下文;扩散变换器模块则根据这些信息,快速生成精确的动作指令,驱动机器人完成各种高难度任务。这种协作机制使得GR00T N1在复杂任务中表现出色,能够高效地完成多样化的操作。

训练数据方面,GR00T N1采用了新颖的“数据金字塔”结构,将不同来源的数据按照规模和实体特异性进行分层,充分利用大规模数据的泛化能力,同时确保模型在真实机器人执行任务时的准确性和适应性。数据金字塔的底层是大规模的网络数据和人类视频数据,提供了广泛的视觉和行为先验知识。中间层是通过物理仿真和神经生成模型产生的合成数据,显著增加了训练数据的多样性和规模。顶层则是真实机器人硬件收集的数据,虽然规模较小,但提供了模型在实际执行任务时的关键反馈。这种分层数据策略确保了GR00T N1在真实应用中的出色表现。

例如,GR00T N1的研发团队收集了大量Fourier GR-1人形机器人的操作数据,这些数据涵盖了各种桌面操作任务,为模型提供了丰富的实际操作样本。通过这种多层次的数据训练,GR00T N1能够在实际应用中表现出色,适应真实机器人的物理特性和执行环境。

原文和模型


【原文链接】 阅读原文 [ 1455字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...