Sora 会颠覆电影制作吗?3 人团队使用 Sora 制作短片完整技术细节&踩坑分享
文章摘要
【关 键 词】 AI视频、Sora模型、后期制作、技术挑战、多媒体艺术
今年2月份,OpenAI发布了人工智能生成视频大模型Sora,并放出了第一批视频片段,引发了AI生成视频的热潮。尽管Sora尚未进行公测,但一些视觉艺术家、设计师和电影制作人已经获得了访问权限,并发布了令人惊艳的连贯、逼真的Sora生成视频短片。加拿大多媒体制作公司Shy Kids最近发布了一段借助Sora制作的视频短片《Air Head》,在社交媒体上引起了广泛关注。
这部短片的制作过程主要由3个人完成,花费不到两周时间。制片人Sidney Leeder、编剧和导演Walter Woodman以及负责后期制作的Patrick Cederberg共同完成了这部作品。知名视觉特效总监Mike Seymour采访了Cederberg,就《Air Head》的制作过程、技术难点等信息进行了提问,并在fxguide上发表了一篇文章,介绍了Sora在视频实际制作过程中的作用和存在的问题。
Sora是一款强大的工具,但其仍处于测试阶段,存在一些技术挑战。例如,气球的颜色在每次生成中都会改变,镜头中可能出现瑕疵,需要大量后期制作来获得最佳效果。AI生成视频可能是向通用人工智能(AGI)迈出的重要一步,但当前的AI视频模型仍处于早期阶段。
Sora的用户界面允许用户输入文本prompt,然后ChatGPT将其转换为更长的字符串,触发视频片段的生成。目前,没有其他输入方式,还没有实现多模态输入。尽管Sora因其生成结果中的对象一致性受到称赞,但目前还没有任何方法来帮助匹配两个镜头的内容。团队尽可能在prompt中给出详细描述,以获得一致性。
为了制作《Air Head》,团队根据大致的剧本生成了多个视频片段,但没有明确的方式来确保黄色气球头在每个镜头中都保持相同。有时,生成结果甚至可能不是黄色的,或者气球上可能嵌入了一张脸。由于Sora隐式地将绳子与气球联系起来,因此在后期制作中需要移除这些绳子。
《Air Head》只使用了Sora生成的镜头,但其中很多镜头都经过了调色、处理和稳定化,所有镜头都被提高了分辨率。团队处理的这些片段最初是以较低分辨率生成的,然后使用Sora或OpenAI之外的AI工具进行超分。一般来说,每次渲染需要10到20分钟,可以生成3-20秒的视频。根据经验,选择的片段时长对渲染时间的影响不大。
在关键帧方面,Sora在实际生成中对不同动作的发生有一点时间控制,但并不精确。Sora还允许用户选择长宽比,如肖像模式或风景模式。遗憾的是,Sora无法原生渲染移动镜头,总是希望镜头的主要焦点出现在镜头中。因此,团队以肖像模式渲染了镜头,然后通过后期的裁剪手动创建了向上摇摄的效果。
对于许多生成式AI工具来说,训练数据附带的元数据是宝贵的信息来源,但在电影镜头中,一些概念如“跟踪”、“平摇”、“竖摇”、“推进”等都不是元数据所能捕捉的。Sora在摄像机角度方面有点随机,是否能理解prompt还不得而知。Sora正在改进,生成控制还没有完全到位。
《Air Head》的制作过程中,除了将气球分离出来以便调整颜色,有时Sonny的气球上会出现一张脸,需要在AfterEffects中去除。其他类似的瑕疵也经常被清理掉。虽然所有画面都是Sora生成的,但《Air Head》仍然需要大量后期工作。对于最终出现在影片中的90秒镜头,团队估计生成了数百个10到20秒的片段,原始素材和最终成品的比例大概是300:1。
《Air Head》的许多片段生成时就好像是以慢动作拍摄的,尽管这并没有在prompt中被要求。这种情况发生的原因尚不清楚,但许多片段因此需要重新调整时间,以使其看起来像是实时拍摄的。这似乎与训练数据有关。Shy Kids在提示中使用了“35mm胶片”这个关键词,并发现这在一定程度上给了他们所追求的一致性。
Sora没有提供额外的pass,如遮罩或深度pass的选项。OpenAI试图尊重版权,不允许生成可能侵犯版权或侵犯肖像权的内容。Sora生成的视频都是没有声音的,《Air Head》中主角Sonny的声音是Patrick本人的声音。Shy Kids团队表示已经开始为《Air Head》制作一部续集,但对于电影制作等实际项目来说,Sora可能还需要一段时间才能达到创作者所需的精确度。
原文和模型
【原文链接】 阅读原文 [ 3531字 | 15分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆