杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑

AI-Agent2天前发布 AIGCOPEN
214 0 0
杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑

 

文章摘要


【关 键 词】 大模型开源人工智能机器人视频分析

Meta近期开源了其最新的大模型V-JEPA 2,该模型在多个方面实现了显著的技术突破。V-JEPA 2通过使用100万小时的视频和100万张图像进行超大规模训练,旨在让AI智能体能够像人类一样理解真实的物理世界。这一模型的核心架构是一个自监督学习框架,通过互联网规模的视频数据来训练模型,使其能够学习到视频中的动态和静态信息。预训练阶段使用了“掩码去噪”技术,将视频片段分割成一系列的“管状块”,每个管状块包含了时间序列上的连续帧,模型通过编码器处理这些管状块,并通过预测器来预测被掩盖部分的表示。这种训练方式不仅让模型能够学习到视频中的运动信息,还能捕捉到场景中的静态特征。

V-JEPA 2在预训练阶段结束后,进一步扩展为一个动作条件的世界模型V-JEPA 2-AC,用于机器人规划任务。这一模块的目标是让模型能够根据动作和状态预测未来的视频帧,从而为机器人提供规划能力。V-JEPA 2-AC的训练使用了来自Droid数据集的62小时未标记机器人视频数据,这些数据包含了机器人的动作和状态信息,但没有明确的奖励信号。V-JEPA 2-AC通过一个自回归的预测器来学习这些动作的效果,预测器使用了一个块因果注意力机制,能够根据当前的动作和状态预测未来的视频帧表示。

在实际部署中,V-JEPA 2-AC能够通过模型预测控制来规划机器人的动作。具体来说,模型会在每个时间步规划一个动作序列,然后执行第一个动作,观察新的状态,并重复这一过程。这种规划方式类似于人类在执行任务时的视觉反馈控制。在实验中,V-JEPA 2-AC被部署在两个不同实验室中的Franka机器人手臂上,这些实验室的环境并未出现在训练数据中。V-JEPA 2-AC能够通过规划实现零样本的抓取和放置任务,而无需在这些环境中收集任何数据,也无需进行特定于任务的训练或奖励。

此外,V-JEPA 2还展示了其在视频问答任务上的能力。通过与大模型对齐,V-JEPA 2能够处理视频问答任务,这需要模型能够理解视频内容并用自然语言回答问题。V-JEPA 2的视频问答能力通过一个多模态大模型实现,该模型使用V-JEPA 2作为视觉编码器,并将视觉特征与语言模型的输入对齐。在视频问答任务中,V-JEPA 2的性能在多个基准测试中达到了新的高度。例如,在PerceptionTest上,它达到了84.0%的准确率;在TempCompass上,达到了76.9%的多选准确率。这些成绩证明了V-JEPA 2在结合视觉和语言理解方面的强大能力。

总体而言,V-JEPA 2的推出不仅展示了Meta在人工智能领域的技术实力,也为AI智能体和机器人技术的发展提供了新的可能性。通过自监督学习和超大规模数据训练,V-JEPA 2能够有效地将从互联网规模数据中学习到的知识应用于实际的机器人任务中,展示了其在零样本任务执行和视频问答方面的强大能力。这一模型的成功应用,预示着未来AI在物理世界理解和任务执行方面的进一步发展。

原文和模型


【原文链接】 阅读原文 [ 1491字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...