Sora 的算力困局：如果正式推出，可能需要 72 万张 H100

AIGC动态1年前 (2024)发布 Founder Park

1,942 0 0

文章摘要

OpenAI最近发布了一个名为Sora的视频生成模型，它在创意产业中引起了轰动。Sora是一个基于扩散模型的高质量视频生成器，其性能和潜在影响正在被研究和讨论。Sora的技术细节在官方报告中并未充分披露，但Matthias Plappert的研究提供了一些关键信息。Sora是一个基于DiT和潜在扩散的模型，它在模型规模和数据集上进行了扩展。Sora的创新之处在于其在视频生成中的scale up，这与LLM类似，是模型能力提升的主要驱动力。

Sora的训练对算力的需求非常高，据估计需要在4200-10500张Nvidia H100上训练一个月。在推理环节，Sora的计算成本将迅速超过训练环节。目前，用户每天上传到TikTok的视频为1700万分钟，YouTube为4300万分钟。如果AI在视频平台上得到广泛应用，例如TikTok上有50%的视频由AI生成，YouTube上有15%的视频由AI生成，那么在峰值需求下，推理环节需要约72万张Nvidia H100。

Sora的技术细节包括潜在扩散、Transformer架构和大规模数据集的使用。Sora没有在像素空间层面工作，而是在潜在空间中进行扩散，这显著降低了计算复杂度。Sora使用的Transformer架构使其具有可预测的scaling特性，这是推动LLM发展的关键动力之一。Sora的数据集很大，可能使用了类似DALLE-3数据集的注释方法。

Sora的影响包括合成数据生成、世界模型和视频模型的实际应用。Sora生成的视频质量足够好，可以用于现实世界的应用，如取代视频素材库的需求。然而，Sora仍面临可控性和编辑难度的挑战。Sora的scaling特性预示着视频生成模型质量将随着更多计算资源的投入而迅速提升。Sora还可以用于生成100%合成的数据和进行数据增强，这对于机器人和自动驾驶领域尤其有价值。

总的来说，Sora代表了视频生成质量和功能上的重大进步，也预示着未来可能会大幅增加推理环节对GPU的需求。尽管Sora的计算需求巨大，但它的潜在应用和影响是深远的。