OpenAI发布季第三天：Sora正式发布！独立产品、完整视频工作流

1,709 0 0

文章摘要

OpenAI在其发布季第三天推出了Sora，这是一个经过近10个月迭代后正式上线的视频生成工具。Sora在基础的文生视频和图生视频功能之上，增加了故事板创作、文本调整原视频、不同场景视频融合等进阶功能，旨在帮助创作者更接近自我表达，完成理想的镜头故事。Sora于12月9日向美国及大多数其他国家用户开放，包含在ChatGPT Plus和ChatGPT Pro的会员订阅中，无需额外付费。Plus会员可生成最多50个高级视频，分辨率720p，时长5秒；Pro会员则可生成最多500个高级视频，分辨率1080p，时长20秒，并能去水印。

Sora的推出基于三个原因：为创意人员制作工具是OpenAI文化的重要组成部分；人工智能系统应能通过视频交互，帮助人类使用AI；以及这对OpenAI的AGI（人工通用智能）路线图至关重要，AI应学习更多世界规律。Sora的核心思路是让生成的视频尽可能符合用户的创意想象，其功能包括通过文字直接修改视频、无缝融合不同视频、改变视频画风等。

尽管Sora在视频生成技术上表现出色，但OpenAI研究人员提醒，Sora是一个工具，允许人们尝试多个想法，探索不可能的事情，是创作者的超级延伸。知名科技博主Marques Brownlee（MKBHD）在社交平台上分享了Sora的测试视频样例，认为Sora在捕捉高频细节方面表现卓越，对知名地标的还原效果很棒，但物理效果仍不自然，需要更好的用户界面支持。MKBHD强调，尽管OpenAI对生成真人肖像、暴力及成人内容设立了严格限制，但AI视频生成技术的快速发展可能引发更广泛的社会讨论。

Sora建立在DALL・E和GPT模型的基础上，使用扩散模型从静态噪声生成新视频，通过多个步骤消除噪声。Sora使用transformer架构，释放出卓越的扩展性能，并使用DALL・E 3中的重描述技术，更忠实地遵循用户的文本指令。Sora接受过包括公开数据、专有数据和人工数据在内的多种数据集训练，是理解和模拟现实世界的模型的基础，OpenAI认为Sora将成为通往AGI的重要里程碑。