
文章摘要
【关 键 词】 AI发展、物理AGI、多模态模型、具身智能、数据瓶颈
大模型的发展正在遭遇瓶颈,互联网文本数据的消耗导致AI模型性能提升速度明显放缓。相比之下,物理世界中蕴藏着数百倍甚至千倍的多模态数据,这些数据尚未被有效利用,成为AI发展的下一个重要方向。智源研究院在2025北京智源大会上发布了“悟界”系列大模型,试图推动AI从数字世界迈向物理世界,实现物理AGI。这一系列包含原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2,覆盖从宏观到微观的物理世界认知。
物理AGI面临的技术困境主要体现在具身智能的“死循环”中:硬件不成熟导致数据稀缺,数据稀缺又限制模型能力,进而影响落地应用和产业规模化发展。智源研究院院长王仲远在对话中提出,破解这一循环的关键在于多模态数据的利用和跨本体泛化能力的提升。他认为,多模态数据是文字数据的百倍甚至万倍,且远未被有效利用。智源的“原生多模态世界模型”Emu3旨在通过单一模型捕捉物理世界的规律,融合包括脑电信号在内的丰富多模态数据,突破数字世界的时空感知隔阂。
在具身智能领域,RoboBrain 2.0的技术架构选择跨本体通用路线,而非专用优化。这一设计类似于安卓系统的跨设备兼容性,能够适配机械臂、轮式单臂、双足等多种机器人构型。王仲远强调,具身智能的未来发展需要突破专有任务,实现跨领域的泛化能力。然而,数据稀缺与泛化需求之间的矛盾仍然突出。智源提出的解决方案包括利用互联网视频数据学习具身技能,并通过强化学习和少量真实数据不断训练模型能力。例如,人类通过观看短视频学习技能并实践,这一过程与强化学习的本质高度契合。
开源和产业协作是智源的重要策略。RoboOS 2.0作为全球首个具身智能SaaS平台,支持无服务器一站式轻量化机器人本体部署,并引入“应用商店”概念,允许开发者共享小脑技能。这一框架优化了端到端推理链路,性能提升30%,端云通信效率提升27倍。王仲远指出,智源的定位是探索前沿技术路径,填补高校与企业之间的空白。中国在制造业、场景丰富度和政策支持方面的优势,为具身智能的快速发展提供了条件。
展望未来,工业制造和服务机器人被认为是最可能实现突破性规模化应用的领域。工业环境的结构化和任务标准化降低了技术落地的难度,而服务机器人则受益于场景的多样性。然而,王仲远也指出,当前的具身智能仍处于早期阶段,从专用任务到泛化能力的跨越需要时间沉淀。智源的技术路径和开源策略,或将为这一变革提供可行的解决方案。
原文和模型
【原文链接】 阅读原文 [ 3965字 | 16分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★