追赶OpenAI的Sora：Meta开源V-JEPA，让AI学会认识世界！

AIGC动态2年前 (2024)发布 AIGCOPEN

2,557 0 0

作者信息

【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
【微信号】 AIGCOPEN

文章摘要

【关键词】 AIGC、大语言模型、V-JEPA、Meta、视频表示

Meta公司基于Yann LeCun提出的JEPA（联合嵌入预测架构）模型，开发了非生成视频模型V-JEPA。该模型旨在通过观察和自我思考、总结，使AI模型能够学习并模拟世界，从而提升视频生成质量、表示学习方法和扩大视频训练数据范围。

V-JEPA核心技术思路

V-JEPA通过Transformer架构对视频序列进行编码，并利用遮蔽自编码框架学习视频的关键特征表示。模型通过基于查询的特征池化模块提取与任务相关的重要特征，并使用联合嵌入预测架构进行特征预测任务，学习视频中不同时间步骤之间的语义关系。

V-JEPA主要功能模块

– 遮蔽自编码：学习视频中的特征表示，通过预测被遮蔽的帧来推断缺失信息。
– Transformer架构：建模视频序列中的时空关系，捕捉不同时间步之间的依赖关系。
– JEPA：通过预测视频序列中不同时间步的特征嵌入，学习视频中的特征表示。
– 基于查询的特征池化：从视频序列中提取关键特征，为特征预测任务提供强大的特征表示。

V-JEPA的实验数据和未来应用场景

V-JEPA在多个图像和视频任务上进行了性能测试，显示出在低样本量冻结评估中的优势。Meta表示，未来将把V-JEPA与音频相结合，并可作为早期物理世界模拟器使用。