Sora 使用中的真相：进步令人难以置信，但离不开大量人工

AIGC动态1年前 (2024)发布 geekpark

2,332 0 0

文章摘要

OpenAI近期发布的Sora，一种革命性的AI视频生成器，引起了全球的关注。Sora的能力在于根据文本提示生成长达一分钟的视频内容，同时保持视觉质量和一致性，并能够进行镜头切换和构图调整。它甚至能够确保视频内容与背景主题细节的准确匹配，使得生成的视频更加逼真。OpenAI的技术说明中提到，未来Sora将能够生成更长的视频或无缝混合两个视频片段。

自3月起，Sora开始向部分艺术家开放使用权限。Shy Kids团队是其中之一，他们使用Sora制作了短片《Air Head》。尽管Sora在特定图像生成方面取得了显著进步，但对于复杂项目，它仍需进化以满足导演的具体需求。《Air Head》的制作过程揭示了Sora在实际影视制作中的应用，以及它在当前形态下的局限性。

Sora的用户界面简洁，目前仅支持文本输入，不支持多模态输入。这意味着用户无法通过图像或声音提供输入，而必须通过详细的文本描述来指导视频生成。Sora在保持视频镜头内对象一致性方面表现出色，但在镜头之间的一致性控制上仍有局限。例如，角色Sonny的气球头在不同镜头中的颜色和样式可能不一致。

《Air Head》中的许多镜头经过了分级、处理和稳定化，分辨率也被提升。Shy Kids使用的是Sora的早期原型，它在时间控制和相机运动指令的理解与执行方面还不够成熟。此外，Sora在渲染时长、宽高比选择、旋转处理等方面也显示出了一定的限制。

尽管Sora的技术令人印象深刻，但Shy Kids团队的经验表明，要实现最终的影片效果，仍然需要大量的人工后期工作。例如，最终影片中的一分半钟镜头是基于数百次生成的素材制作的，显示出源材料与最终成品之间存在巨大的比例差异。

Sora还不允许生成可能侵犯版权或模仿特定作品的内容，这表明在创意表达上存在一定的限制。例如，它会拒绝生成与《星球大战》等知名作品过于相似的内容。

总结来看，Sora的出现标志着视频生成模型的一个重要转折点，尽管它目前还无法在电影工业的各个环节完全替代人工。然而，AI技术正以惊人的速度进步，未来可能不久我们就能看到适用于视频产业甚至电影工业的高级视频生成模型。尽管Sora为好莱坞带来了更多的缓冲时间，但AI技术的快速发展也意味着行业内的担忧和变革是不可避免的。