机器人WAIC现场抢活讲PPT?商汤悟能具身智能平台让机器人「觉醒」

AIGC动态8小时前发布 AIera
72 0 0
机器人WAIC现场抢活讲PPT?商汤悟能具身智能平台让机器人「觉醒」

 

文章摘要


【关 键 词】 具身智能世界模型多模态交互机器人技术数据生成

商汤科技在WAIC上发布了具身智能平台「悟能」,该平台以世界模型为核心引擎,旨在解决机器人行业面临的数据瓶颈和场景泛化难题。平台通过自然语言描述生成符合物理规则的多视角视频,大幅提升了仿真数据的质量和效率。这一技术突破为机器人的感知、导航和交互能力提供了全新解决方案,标志着AI从工具向合作者的角色转变。

「悟能」平台具备四大核心功能:视觉感知、导航规划、多模态交互和世界模型生成。在感知方面,平台将商汤原有的视觉识别能力嵌入机器人芯片,实现对环境和物体的实时理解。导航功能则借鉴了商汤在自动驾驶领域的技术积累,使机器人能够自主规划路径并避障。交互能力的突破尤为显著,现场演示的机器人不仅能理解复杂指令,还能保持对话连贯性,甚至具备幽默感,展现了从工具到伙伴的进化。

世界模型生成是平台最具创新性的能力。通过「开悟」技术,系统可以生成具有时空一致性的多视角视频,并支持实时编辑。这一功能不仅解决了自动驾驶等场景的数据稀缺问题,更被扩展至具身智能领域。平台能同时生成第一人称和第三人称视角的动作视频,使机器人获得类似人类的「直觉」理解能力。这种双视角结合的方式,为机器人提供了动作参考指南,显著提升了交互的自然度和流畅性。

具身智能领域当前面临三大挑战:本体泛化、任务泛化和场景泛化。商汤的解决方案是通过世界模型生成高质量合成数据,突破数据瓶颈。与谷歌等公司主攻的VLA模型不同,商汤采用全栈技术路线,覆盖从感知到决策的完整链条。这一策略得益于公司在多模态大模型、算力基础设施和产业生态的长期积累。SenseNova V6.5大模型在多模态推理性能上已达到国际顶尖水平,而23,000PetaFlops的算力规模为模型训练提供了强大支撑。

商汤通过投资布局构建了完整的具身智能产业链生态,从核心算法到硬件本体实现全面覆盖。这种「三位一体」的战略布局,使公司能够快速验证技术并迭代优化。具身智能被视为AI发展的下一个关键方向,在医疗护理、家庭服务等领域具有广阔应用前景。「悟能」平台的发布不仅展示了商汤的技术实力,更可能成为推动行业进入爆发期的关键催化剂,最终实现机器人与人类协同共生的愿景。

原文和模型


【原文链接】 阅读原文 [ 4193字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...