GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

AIGC动态10个月前发布 almosthuman2014

2,290 0 0

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

文章摘要

ByteDance Research 推出的第二代机器人大模型 GR-2，通过其卓越的泛化能力和多任务通用性，展示了机器人大模型技术的潜力。GR-2 的训练分为预训练和微调两个阶段，其中预训练阶段在3800万个互联网视频片段上进行，使其能够学习人类在不同场景下的日常活动。这种训练方式赋予了GR-2对世界的深刻理解。

在微调阶段，GR-2 通过在机器人轨迹数据上进行微调，能够预测动作轨迹并生成视频，提升了动作预测的准确性。此外，GR-2 能够通过输入图片和语言指令生成动作和视频，展现了其视频生成能力。

在人工智能领域，Scaling Law 描述了模型性能与规模之间的关系。GR-2 的性能随着模型规模的增加而显著提升，7亿参数规模的模型在处理复杂任务和泛化到未见过的任务和场景时表现出色。

GR-2 在多任务学习测试中能够完成105项不同的桌面任务，平均成功率为97.7%。它不仅能够处理已知任务，还能在面对未知场景和物体时展现出强大的泛化能力。GR-2 还能与大语言模型结合，完成复杂的长任务，并与人类互动。

在工业应用中，GR-2 能够端到端地完成物体拣选任务，无论是透明物体、反光物体、柔软物体还是其他具有挑战性的物体，GR-2 均能准确抓取。这表明其在工业领域和真实仓储场景中具有巨大潜力。

尽管GR-2 在互联网视频上接受了大规模的预训练，但真实世界动作数据的规模和多样性仍有待提高。GR-2 的发展是AI推动机器人技术进步的一个例证，预示着其在实际应用中的巨大潜力。