作者信息
【原文作者】 51CTO技术栈
【作者简介】 追踪 IT 新动向,赋能全球技术人员成长。
【微 信 号】 blog51cto
文章摘要
【关 键 词】 OpenAI、Sora、Transformer、物理辩论、视频生成
OpenAI发布了其首个视频生成模型Sora,引起了广泛关注。
然而,Sora的Transformer模型也遭到了来自Meta和谷歌等竞争对手的研究人员的批评。
他们认为Sora并未真正理解物理世界,而只是生成逼真的视频。
LeCun提出了Meta的V-JEPA模型,这是一个非生成性的模型,旨在通过预测来提高对世界的理解。
尽管Sora的模型存在局限性,但它展示了上下文学习的能力。
Meta的V-JEPA模型通过分析视频中对象的交互来提高机器对世界的理解,它不需要详细的数据即可学习,这被视为人工智能的一大进步。
V-JEPA的开发包括屏蔽大部分视频,以便模型专注于视频中的总体概念。
Meta计划将V-JEPA的功能扩展到声音分析和理解更长视频的能力。
原文信息
【原文链接】 阅读原文
【原文字数】 1690
【阅读时长】 6分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...