机器人WAIC现场抢活讲PPT？商汤悟能具身智能平台让机器人「觉醒」

927 0 0

文章摘要

商汤科技在WAIC上发布了具身智能平台「悟能」，该平台以世界模型为核心引擎，旨在解决机器人行业面临的数据瓶颈和场景泛化难题。平台通过自然语言描述生成符合物理规则的多视角视频，大幅提升了仿真数据的质量和效率。这一技术突破为机器人的感知、导航和交互能力提供了全新解决方案，标志着AI从工具向合作者的角色转变。

「悟能」平台具备四大核心功能：视觉感知、导航规划、多模态交互和世界模型生成。在感知方面，平台将商汤原有的视觉识别能力嵌入机器人芯片，实现对环境和物体的实时理解。导航功能则借鉴了商汤在自动驾驶领域的技术积累，使机器人能够自主规划路径并避障。交互能力的突破尤为显著，现场演示的机器人不仅能理解复杂指令，还能保持对话连贯性，甚至具备幽默感，展现了从工具到伙伴的进化。

世界模型生成是平台最具创新性的能力。通过「开悟」技术，系统可以生成具有时空一致性的多视角视频，并支持实时编辑。这一功能不仅解决了自动驾驶等场景的数据稀缺问题，更被扩展至具身智能领域。平台能同时生成第一人称和第三人称视角的动作视频，使机器人获得类似人类的「直觉」理解能力。这种双视角结合的方式，为机器人提供了动作参考指南，显著提升了交互的自然度和流畅性。

具身智能领域当前面临三大挑战：本体泛化、任务泛化和场景泛化。商汤的解决方案是通过世界模型生成高质量合成数据，突破数据瓶颈。与谷歌等公司主攻的VLA模型不同，商汤采用全栈技术路线，覆盖从感知到决策的完整链条。这一策略得益于公司在多模态大模型、算力基础设施和产业生态的长期积累。SenseNova V6.5大模型在多模态推理性能上已达到国际顶尖水平，而23,000PetaFlops的算力规模为模型训练提供了强大支撑。

商汤通过投资布局构建了完整的具身智能产业链生态，从核心算法到硬件本体实现全面覆盖。这种「三位一体」的战略布局，使公司能够快速验证技术并迭代优化。具身智能被视为AI发展的下一个关键方向，在医疗护理、家庭服务等领域具有广阔应用前景。「悟能」平台的发布不仅展示了商汤的技术实力，更可能成为推动行业进入爆发期的关键催化剂，最终实现机器人与人类协同共生的愿景。