GPT、DALL·E、Sora，为什么 OpenAI 可以跑通所有 AGI 技术栈？

AIGC动态1年前 (2024)发布 Founder Park

2,373 0 0

作者信息

【原文作者】 Founder Park
【作者简介】 来自极客公园，专注与科技创业者聊「真问题」。
【微信号】 Founder-Park

文章摘要

OpenAI 的最新视频生成模型 Sora，再次展示了其在模拟真实物理世界方面的野心和技术实力。Sora 的成功，不仅在于其生成的视频质量，更在于其背后的技术架构和方法论。以下是对 Sora 技术分析和 OpenAI 愿景的详细总结。

Sora 的技术分析

Sora 的核心在于其对大语言模型（LLM）成功经验的复用，特别是在 scaling law 的实现上。Sora 的贡献在于证明了在足量数据、优质标注和灵活编码的支持下，scaling law 在 transformer + diffusion model 的架构上依然有效。

– 足量的数据：尽管 OpenAI 未明确透露数据来源，但推测可能包括大量 YouTube 视频和合成数据。
– 灵活的编码（visual patches）：Sora 使用 video compression network 将视频压缩成视觉块（visual patches），类似于文本模型中的 tokenizer，提高了模型的灵活性和生成视频的合理性。
– 优质的标注：OpenAI 使用内部工具为视频提供详尽描述，增强了模型对 prompt 的理解和服从，提高了视频质量。
– Transformer + diffusion model 的架构：Sora 结合了 transformer 和 diffusion model，生成精细细节并支持有趣的操作，如 SDEdit。
– 涌现现象：Sora 展示了良好的 3D 空间性质、时间连贯性和现实物理交互模拟等新兴属性。

尽管 Sora 在模拟现实物理过程方面仍有不足，如流体动力学，但其在视频生成领域的成就已远超以往模型。

OpenAI 的愿景

OpenAI 的愿景是通过生成模型（generative model）让计算机理解世界。Sora 被视为世界模拟器的视频生成模型，是 OpenAI 实现这一愿景的重要一步。OpenAI 认为，生成模型是理解世界的最有希望的方法之一，通过创造数据来理解数据。

OpenAI 如何跑通 AGI 技术栈

OpenAI 能够成功跑通 AGI 技术栈的原因包括：

– 明确的目标和商业模式：OpenAI 专注于 AGI 研究，采用 SaaS 商业模式，通过 API 提供服务，集中精力开发 AGI。
– 系统性的方法论：OpenAI 的方法论基于几个核心公理，包括强大的算力和通用算法的重要性（The bitter lesson）、scaling law 的存在、以及随着模型规模扩大出现的新兴属性（emerging properties）。
– 持续的数据获取和利用：OpenAI 致力于获取和构造大量数据，以支持其世界模型和生成模型。
– 通用模型和架构：OpenAI 倾向于使用通用模型和 transformer 架构，以减少技术栈的复杂性并提高效率。
– 稀疏模型和算力优化：为了应对模型规模扩大带来的推理成本问题，OpenAI 采用稀疏模型技术，并持续寻求算力优化。

OpenAI 的这些策略和实践使其在实现通用人工智能的道路上取得了显著进展，并有望在未来继续推动 AGI 的发展。