Sora 会颠覆电影制作吗？3 人团队使用 Sora 制作短片完整技术细节&踩坑分享

AIGC动态2年前 (2024)发布 Founder Park

2,179 0 0

Sora 会颠覆电影制作吗？3 人团队使用 Sora 制作短片完整技术细节&踩坑分享

文章摘要

今年2月份，OpenAI发布了人工智能生成视频大模型Sora，并放出了第一批视频片段，引发了AI生成视频的热潮。尽管Sora尚未进行公测，但一些视觉艺术家、设计师和电影制作人已经获得了访问权限，并发布了令人惊艳的连贯、逼真的Sora生成视频短片。加拿大多媒体制作公司Shy Kids最近发布了一段借助Sora制作的视频短片《Air Head》，在社交媒体上引起了广泛关注。

这部短片的制作过程主要由3个人完成，花费不到两周时间。制片人Sidney Leeder、编剧和导演Walter Woodman以及负责后期制作的Patrick Cederberg共同完成了这部作品。知名视觉特效总监Mike Seymour采访了Cederberg，就《Air Head》的制作过程、技术难点等信息进行了提问，并在fxguide上发表了一篇文章，介绍了Sora在视频实际制作过程中的作用和存在的问题。

Sora是一款强大的工具，但其仍处于测试阶段，存在一些技术挑战。例如，气球的颜色在每次生成中都会改变，镜头中可能出现瑕疵，需要大量后期制作来获得最佳效果。AI生成视频可能是向通用人工智能（AGI）迈出的重要一步，但当前的AI视频模型仍处于早期阶段。

Sora的用户界面允许用户输入文本prompt，然后ChatGPT将其转换为更长的字符串，触发视频片段的生成。目前，没有其他输入方式，还没有实现多模态输入。尽管Sora因其生成结果中的对象一致性受到称赞，但目前还没有任何方法来帮助匹配两个镜头的内容。团队尽可能在prompt中给出详细描述，以获得一致性。

为了制作《Air Head》，团队根据大致的剧本生成了多个视频片段，但没有明确的方式来确保黄色气球头在每个镜头中都保持相同。有时，生成结果甚至可能不是黄色的，或者气球上可能嵌入了一张脸。由于Sora隐式地将绳子与气球联系起来，因此在后期制作中需要移除这些绳子。

《Air Head》只使用了Sora生成的镜头，但其中很多镜头都经过了调色、处理和稳定化，所有镜头都被提高了分辨率。团队处理的这些片段最初是以较低分辨率生成的，然后使用Sora或OpenAI之外的AI工具进行超分。一般来说，每次渲染需要10到20分钟，可以生成3-20秒的视频。根据经验，选择的片段时长对渲染时间的影响不大。

在关键帧方面，Sora在实际生成中对不同动作的发生有一点时间控制，但并不精确。Sora还允许用户选择长宽比，如肖像模式或风景模式。遗憾的是，Sora无法原生渲染移动镜头，总是希望镜头的主要焦点出现在镜头中。因此，团队以肖像模式渲染了镜头，然后通过后期的裁剪手动创建了向上摇摄的效果。

对于许多生成式AI工具来说，训练数据附带的元数据是宝贵的信息来源，但在电影镜头中，一些概念如“跟踪”、“平摇”、“竖摇”、“推进”等都不是元数据所能捕捉的。Sora在摄像机角度方面有点随机，是否能理解prompt还不得而知。Sora正在改进，生成控制还没有完全到位。

《Air Head》的制作过程中，除了将气球分离出来以便调整颜色，有时Sonny的气球上会出现一张脸，需要在AfterEffects中去除。其他类似的瑕疵也经常被清理掉。虽然所有画面都是Sora生成的，但《Air Head》仍然需要大量后期工作。对于最终出现在影片中的90秒镜头，团队估计生成了数百个10到20秒的片段，原始素材和最终成品的比例大概是300:1。

《Air Head》的许多片段生成时就好像是以慢动作拍摄的，尽管这并没有在prompt中被要求。这种情况发生的原因尚不清楚，但许多片段因此需要重新调整时间，以使其看起来像是实时拍摄的。这似乎与训练数据有关。Shy Kids在提示中使用了“35mm胶片”这个关键词，并发现这在一定程度上给了他们所追求的一致性。

Sora没有提供额外的pass，如遮罩或深度pass的选项。OpenAI试图尊重版权，不允许生成可能侵犯版权或侵犯肖像权的内容。Sora生成的视频都是没有声音的，《Air Head》中主角Sonny的声音是Patrick本人的声音。Shy Kids团队表示已经开始为《Air Head》制作一部续集，但对于电影制作等实际项目来说，Sora可能还需要一段时间才能达到创作者所需的精确度。