追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!

AIGC动态9个月前发布 AIGCOPEN
1,079 0 0

作者信息


【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
【微 信 号】 AIGCOPEN

追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!
 

文章摘要


【关 键 词】 AIGC大语言模型V-JEPAMeta视频表示

Meta公司基于Yann LeCun提出的JEPA(联合嵌入预测架构)模型,开发了非生成视频模型V-JEPA。该模型旨在通过观察和自我思考、总结,使AI模型能够学习并模拟世界,从而提升视频生成质量、表示学习方法和扩大视频训练数据范围。

V-JEPA核心技术思路

V-JEPA通过Transformer架构对视频序列进行编码,并利用遮蔽自编码框架学习视频的关键特征表示。模型通过基于查询的特征池化模块提取与任务相关的重要特征,并使用联合嵌入预测架构进行特征预测任务,学习视频中不同时间步骤之间的语义关系。

V-JEPA主要功能模块

遮蔽自编码:学习视频中的特征表示,通过预测被遮蔽的帧来推断缺失信息。
Transformer架构:建模视频序列中的时空关系,捕捉不同时间步之间的依赖关系。
JEPA:通过预测视频序列中不同时间步的特征嵌入,学习视频中的特征表示。
基于查询的特征池化:从视频序列中提取关键特征,为特征预测任务提供强大的特征表示。

V-JEPA的实验数据和未来应用场景

V-JEPA在多个图像和视频任务上进行了性能测试,显示出在低样本量冻结评估中的优势。Meta表示,未来将把V-JEPA与音频相结合,并可作为早期物理世界模拟器使用。

原文信息


【原文链接】 阅读原文
【原文字数】 1676
【阅读时长】 6分钟

© 版权声明

相关文章

暂无评论

暂无评论...