OpenAI发布文生视频模型Sora：60秒一镜到底、吊打现在所有视频生成模型

AIGC动态2年前 (2024)发布 Founder Park

2,722 0 0

作者信息

【原文作者】 Founder Park
【作者简介】 来自极客公园，专注与科技创业者聊「真问题」。
【微信号】 Founder-Park

文章摘要

在短短十几小时内，OpenAI和谷歌接连发布了引人注目的成果，引发了国内外技术圈的广泛关注。特别是OpenAI发布的首款文生视频模型——Sora，标志着AI视频制作领域的一次重大突破。Sora能够根据文字指令创造出既逼真又充满想象力的场景，并生成长达1分钟的超长视频，实现了前所未有的连贯性和一致性。

Sam Altman对Sora的推广尤为积极，他通过社交媒体亲自为网友生成视频，展示了Sora的强大能力。Sora不仅能够理解用户指令中所表达的需求，还能创造出能够表达丰富情感的角色和复杂场景。这得益于其对语言的深刻理解和对现实世界中元素表现形式的精确把握。

Sora的技术基础包括DALL·E 3所使用的扩散模型和GPT-4的Transformer引擎，使其不仅能生成满足特定要求的视频，还能展示出对电影拍摄语法的自发理解。这种能力体现在它对讲故事的独特才能上，能够在同一视频中设计出多个镜头，同时保持角色和视觉风格的一致性。

Sora的出现不仅是技术上的一大突破，也引发了对未来的广泛思考。它的成功实现预示着通用人工智能（AGI）的可能性越来越近。业内人士对Sora的评价极高，认为它在视频生成领域实现了质的飞跃，将对整个行业产生深远影响。

Sora的技术介绍显示，它是基于DALL·E和GPT模型的研究成果，采用了扩散模型和Transformer架构，通过对视频和图像的深入理解，能够精确地遵循用户的文本指令生成视频。这标志着OpenAI在追求实现通用人工智能（AGI）的道路上又迈出了重要一步。

总之，Sora的发布不仅展示了OpenAI在AI视频生成领域的领先地位，也为未来的技术发展和应用开辟了新的可能性，引发了人们对AI技术未来发展方向的广泛讨论和期待。