
文章摘要
智元机器人发布了通用具身基座大模型——智元启元大模型(GO-1),展示了其通过模仿人类操作完成家务任务的能力,如倒水和制作吐司早餐。GO-1的核心功能依赖于ViLLA(视觉-语言-潜在动作)架构,该架构由多模态大模型(VLM)和混合专家模型(MoE)组成。MoE包含隐式规划器(Latent Planner)和动作专家(Action Expert),分别负责制定动作蓝图和执行具体动作。ViLLA通过预测隐式动作标记,弥合了图像-文本输入与机器人执行动作之间的鸿沟,使其在灵巧操作和长时任务方面表现卓越。
GO-1的训练利用了多种数据来源,包括互联网文本、人类操作视频、仿真数据和真机示教数据。这种多元数据融合使GO-1能够从理解任务含义到精确完成实际操作。然而,机器人领域面临的一个主要挑战是如何有效利用海量网络视频数据,因为这些数据在编码格式、帧率、分辨率等方面存在差异,导致机器人难以直接学习。为此,智元机器人提出了一种新方法,利用“潜在动作”捕捉连续视频帧之间的动态关系,从而将没有动作标签的网络视频和不同类型机器人的数据用于训练。
智元机器人在2024年末开源了AgiBot World数据集,这是一个大规模、高质量的现实世界机器人数据集,涵盖了217项任务和超过100万条轨迹,被称为具身智能的“ImageNet时刻”。这一数据集为机器人领域提供了类似于自然语言处理(NLP)和计算机视觉(CV)领域的数据基础,推动了通用机器人能力的研究。AgiBot World Colosseo通过提供标准化的数据收集管道和人在回路的验证机制,建立了一个可靠的平台来评估不同算法的性能,使研究更具可比性和可重复性。
GO-1的发布不仅展示了智元机器人在技术上的突破,也透露出其在机器人领域的野心。智元机器人不仅希望成为一家硬件制造商,更希望通过大模型和算法的结合,推动机器人智能的迭代和发展。GO-1的成功率在复杂任务中超过60%,比现有技术高出32%,并且智元承诺将整个生态系统开源,包括数据集、工具链和预训练模型。这一举措不仅有助于推动行业进步,也为未来更大规模的数据收集和模型训练提供了理论支持。
总的来说,GO-1的发布标志着智元机器人在具身智能领域迈出了重要一步,通过结合大模型、多元数据训练和开源策略,智元机器人正在推动机器人技术向更智能、更通用的方向发展。
原文和模型
【原文链接】 阅读原文 [ 2246字 | 9分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★