智源研究院院长王仲远:至少5-10年,具身智能模型才能成熟落地|钛媒体AGI

智源研究院院长王仲远:至少5-10年,具身智能模型才能成熟落地|钛媒体AGI

 

文章摘要


【关 键 词】 人工智能具身智能机器人开源技术群体智能

在2025中关村论坛年会的“未来人工智能先锋论坛”上,智源研究院院长王仲远发布了跨本体具身大小脑协作框架RoboOS和开源具身大脑RoboBrain。这两款技术产品旨在推动单机智能向群体智能的转变,为具身智能的开源统一生态提供底层技术支持。具身智能(Embodied AI)是将AI融入机器人等物理实体,赋予它们感知、学习和与环境动态交互的能力。王仲远指出,具身智能的发展仍处于早期阶段,完全成熟的具身智能模型可能需要5到10年的时间。

当前,具身智能面临四大瓶颈:数据短缺、模型能力弱、落地应用难和硬件不成熟。智源研究院希望通过解决模型能力问题,推动具身大模型的迭代能力代际跃迁。RoboBrain由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。该模型采用多阶段训练策略,具备长历史帧记忆和高分辨率图像感知能力,能够解读人类指令和视觉图像,生成基于实时图像反馈的行动计划和评估。在AGD20K测试集上,RoboBrain的平均精度超过了当时最先进的开源模型Qwen2-VL,验证了其在指令理解和物体属性方面的卓越能力。

RoboOS基于“大脑-小脑”分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持。RoboOS的分层架构下,具身大脑RoboBrain的复杂场景感知与决策能力,可与小脑技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。RoboOS目前支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体。

此外,智源研发的FlagScale作为底层支撑框架,支持大模型在多设备间的并行推理与多任务协同调度,可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。王仲远强调,开源RoboBrain能够实现跨本体化、不同品牌、不同类型的机器人,帮助硬件具备泛化智能能力。他表示,智源研究院将所有的研究工作和成果进行开源开放,与本体厂商、应用厂商协作,促进具身智能行业的更好、更快发展。

智源研究院依托多模态大模型技术优势资源,正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,积极建设具身智能创新平台,重点开展数据、模型、场景验证等研究,将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型,加速具身智能跨本体协作与规模化应用。

原文和模型


【原文链接】 阅读原文 [ 1436字 | 6分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...