作者信息
【原文作者】 AI前线
【作者简介】 面向AI爱好者、开发者和科学家,提供AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。
【微 信 号】 ai-front
文章摘要
【关 键 词】 Sora视频生成模型、世界模型、Yann LeCun、V-JEPA、Meta
OpenAI发布Sora视频生成模型,引发全球关注
OpenAI近日发布了一个名为Sora的视频生成模型,该模型能够生成长达60秒的高清视频,与以往只能生成几秒钟视频的模型相比,Sora的能力引起了广泛关注。英伟达高级研究科学家Jim Fan认为Sora是一个数据驱动的物理引擎,OpenAI也声称Sora是构建物理世界通用模拟器的可行之路。然而,这一技术的发展也引发了公众对于人工智能理解真实世界的恐慌。
Yann LeCun对Sora的批评
图灵奖得主Yann LeCun对Sora提出了批评。他认为Sora并不理解物理世界,并且对“世界模型”的实现方式持否定态度。LeCun指出,Sora生成的视频中存在错误,例如将蚂蚁的腿数错误地表示为四条而非六条,这表明Sora并未真正理解物理世界。他强调,生成看似真实的视频并不代表系统真的理解物理世界,而且这种连续生成的成本高昂且没有现实意义。
V-JEPA:非生成模型的新尝试
Yann LeCun提出了一种名为V-JEPA(联合嵌入预测架构)的非生成模型,该模型通过预测抽象表示空间中视频的缺失部分来进行学习。V-JEPA采用自监督学习方法,可以仅依靠未经标注的数据进行预训练,并且在学习未标注数据方面的效率更高。V-JEPA在图像分类、动作分类及时空动作检测等任务的冻结评估方面表现优于以往的视频表示学习方法。
Meta的研究方向
Meta(Facebook的母公司)正在研究如何调整V-JEPA模型以在更长的时间范围内实现准确预测。目前,V-JEPA主要在较短的时间维度上发挥作用,例如在不超过10秒的视频片段中识别对象行为。Meta计划将V-JEPA与其他多模态方法结合,并考虑将音频与视觉效果结合起来,以进一步提升模型的性能。
总结
OpenAI的Sora视频生成模型虽然在技术上取得了突破,但其对物理世界的理解能力受到了质疑。Yann LeCun提出的V-JEPA模型提供了一种新的非生成模型研究方向,该模型在多个视频处理任务中展现出高效性和优越性。Meta公司正在探索如何将V-JEPA模型应用于更广泛的时间和空间范围,以及如何结合多模态数据来提升模型性能。这些研究进展表明,人工智能领域正朝着更深入理解和模拟真实世界的方向迈进。
原文信息
【原文链接】 阅读原文
【原文字数】 3565
【阅读时长】 12分钟