专访优必选庞建新：在大模型时代推动机器人智能化｜GAIR live

AIGC动态1年前 (2024)发布 aitechtalk

2,258 0 0

文章摘要

未来几年，AI+人形机器人领域将迎来颠覆性的技术变革。庞建新，优必选副总裁、研究院副院长，正领导团队将大模型技术应用于人形机器人的多模态感知和决策规划中，提升人形机器人智能化水平。庞建新的专业背景横跨语音处理、计算机视觉，再到人形机器人技术，他的职业生涯是中国智能科技崛起的一个缩影。

大模型技术的横空出世，让庞建新看到了可能性，但同时也带来了挑战。大模型技术的核心是融合大量知识和数据，这对于人形机器人领域来说是一个巨大的机遇，但同时也带来了新的挑战，如如何将大语言模型技术与人形机器人的“小脑”和“本体”结合，以及如何处理大语言模型可能产生的“幻觉”问题等。

优必选的策略是双管齐下，既要分层结构的解决方案，同时也不能放弃端到端的解决方案。分层结构的解决方案将大模型分为处理知识、常识推理的“大脑”层，指导动作规划的“小脑”层，以及直接与控制相结合的动作执行层。端到端的解决方案则是从感知直接到控制的全过程。

庞建新认为，目前人工智能和人形机器人技术的结合正处于一个开放性问题的时期，技术尚未开始收敛，仍需在一些小规模场景中进行实验和测试。优必选与新能源车厂的合作，正是他们在多模态感知决策技术应用实训方面的一次尝试。庞建新坚信，大模型技术将是推动未来技术进步和产业化的关键。

优必选在AI+人形机器人领域的探索包括多模态感知问题、决策和任务规划等。他们希望通过多模态技术应用到人形机器人技术中，将视觉感知、语音感知、上下文信息以及相关知识等统一作为输入，以促进人形机器人的决策过程。此外，他们还关注于人形机器人的决策和任务规划，利用大型模型的技术，充分发挥大模型的逻辑和推理能力，以解决人形机器人在决策和推理方面的挑战。

庞建新认为，大模型技术的应用不仅仅是关于知识的问题，它还涉及到上下文和环境的问题。大模型的应用将采用多个模型的集成应用，包括基于语言的大模型、基于视觉的小模型、语音的小模型、多模态的大模型，以及通过强化学习等方式学习到的动作规划，以及控制策略的方面的大模型等等。

优必选采取了一种灵活而协同的工作方式，组织多个团队联合作业，这些团队可能包括视觉感知、控制和语言处理等领域的专家。这样的跨领域合作模式已经成为优必选的标准做法。

优必选在推动技术成果产业化方面，与新能源车厂合作开展了一项实训工作，涉及到了他们多模感知决策技术的一部分应用。优必选也跟百度达成了合作，将文心大模型接入人形机器人Walker S ，共同探索中国AI大模型+人形机器人的应用。

庞建新认为，仿真技术可能是未来人形机器人领域一个潜在的颠覆性变化。通过高效的仿真技术，我们可以构建大量用于人形机器人应用的数据和虚拟场景，这对于人形机器人技术的进步非常重要。

AI增强人形机器人领域正处于一个充满活力和创新的时期，未来几年可能会出现多项颠覆性的技术变革。仿真技术、大模型以及其他AI技术的发展，将为人形机器人领域带来新的机遇和挑战。在这个百花齐放的阶段，我们需要持续关注技术的发展动态，并积极探索如何将这些技术应用于实际场景中。