
文章摘要
智元机器人近期发布的通用具身基座大模型GO-1,标志着机器人行业迈向了一个新的里程碑。GO-1的核心优势在于其强大的泛化能力和极简学习机制,能够在极少数据甚至零样本的情况下,迅速适应新场景和新任务。这一能力的实现,离不开智元此前推出的AgiBot World数据集,该数据集包含超过100万条轨迹,涵盖了217个任务和五大场景,为GO-1的高效训练和广泛泛化提供了坚实的基础。
GO-1的AI能力显著提升了机器人的实用价值。通过观看人类操作视频,GO-1能够快速掌握新技能,并将其高效应用到实际任务中。例如,在演示视频中,GO-1展现了强大的物体跟踪能力,即使水杯被随意移动,它依然能精准完成倒水动作。此外,GO-1仅需百条级数据即可实现快速泛化,这种能力不仅体现在对多样化任务的适应性上,还显著降低了训练成本。
GO-1的跨本体能力为多机器人协作提供了强大的技术支持。在演示中,两个机器人协同完成复杂任务,一个负责接待嘉宾,另一个专注于制作咖啡,展现了GO-1的高效性和适应性。传统具身模型通常针对单一机器人本体设计,导致数据利用率低和部署受限,而GO-1能够赋能多种本体,在不同机器人形态之间快速迁移,显著提升了数据的利用效率,降低了部署成本。
GO-1的模型架构采用了Vision-Language-Latent-Action(ViLLA)架构,结合了多模态大模型(VLM)和混合专家系统(MoE)。尽管业内人士认为其模型架构创新不多,主要是对已有工作、数据和训练方式的大幅整合,但其底层支撑的AgiBot World数据集在数量和质量上均优于行业内现有的数据集,如Open X-Embodiment。AgiBot World数据集不仅规模庞大,且数据质量、规范性和一致性更好,为GO-1的成功提供了关键支持。
然而,尽管GO-1的表现比之前模型有了显著提升,但在某些任务上的成功率仍不到80%。业内人士指出,当前机器人行业的核心瓶颈并非模型,而是硬件收敛问题和数据量不足。机器人行业的数据采集成本较高,且缺乏明确的商业价值支撑,这导致数据闭环的飞轮难以快速运转。相比之下,自动驾驶行业的数据采集成本几乎可以忽略不计,形成了高效的数据闭环。
智元机器人在GO-1发布视频的最后预告了下一个具身智能机器人产品,引发了业界的广泛期待。大模型的兴起为AI行业带来了爆发式进化,而GO-1的发布则为机器人和具身智能行业提供了一个良好的起点。然而,具身AI的实现需要开源合作,只有通过多方协作,才能真正推动机器人行业的快速进化。
原文和模型
【原文链接】 阅读原文 [ 2251字 | 10分钟 ]
【原文作者】 极客公园
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★