英伟达 Jim Fan：复刻 NLP 的成功路，用通用模型开启具身智能的 GPT-3 时刻

2,269 0 0

文章摘要

在机器人技术飞速发展的今天，英伟达的高级科学家Jim Fan及其团队在具身智能领域的研究取得了显著进展。他们开发的四足机器人Unitree Go1能够自如地在瑜伽球上保持平衡，这一成就得益于Eureka项目的扩展研究，该项目能够将虚拟世界的训练成果无缝转移到现实世界，无需额外调整。

Jim Fan的研究历程从OpenAI的实习生开始，他在那里首次接触到通用人工智能（AGI）的研究。随后，他在斯坦福大学师从李飞飞教授，专注于具身智能领域的研究。他的个人使命是解决具身智能问题，这促使他领导了英伟达的GEAR团队，致力于构建能够在虚拟和物理世界中执行动作的具身智能体。

GEAR团队的核心工作是“生成动作”，旨在为人形机器人和其他智能机器人构建强大的AI大脑。Jim Fan认为，虚拟世界和物理世界的融合是未来发展的趋势，而机械狗的研究成果只是这一趋势的开端。尽管模拟到现实的迁移存在挑战，但具身智能和通用具身智能体的发展前景依然广阔。

Jim Fan强调了数据策略的重要性，他认为整合互联网数据、模拟数据和真实机器人数据是成功的关键。他预测，在未来两到三年内，机器人基础模型将取得突破，类似于机器人领域的GPT-3时刻。他还提到，英伟达在计算资源、模拟技术和芯片方面的优势，将有助于推动具身智能领域的发展。

在虚拟世界的研究中，Jim Fan对Minecraft表现出浓厚的兴趣，他认为游戏和仿真是解决具身智能问题的关键。他的团队开发的Mine Dojo和Voyager项目展示了在Minecraft中训练通用智能体的可能性。他相信，未来将有一个模型能够同时适用于虚拟和物理智能体，实现技能、体态和世界的泛化。

Jim Fan还提到了Transformer架构在虚拟世界领域的应用，他认为尽管Transformer在很多方面表现出色，但其潜力尚未被完全挖掘。他还关注了Mamba和测试时间训练等Transformer的替代品，这些模型在推理过程中展现出更高的效率。

总的来说，Jim Fan和他的团队在具身智能领域的研究不仅推动了机器人技术的发展，也为虚拟世界和物理世界的融合提供了新的可能性。他们的工作预示着一个智能机器人将像iPhone一样普及的未来。