模拟一切实现AGI？OpenAI Sora核心成员最新演讲+专访来了

AIGC动态1年前 (2024)发布 AIera

892 0 0

文章摘要

【关键词】 人工智能、Sora技术、内容创作、视觉Transformer、通用智能

<新智元报道>了在的主题演讲中分享的观点。Sora结合了和，被认为可能是通向<通用人工智能（AGI）>的重要一步。尽管Sora在处理复杂物理互动方面存在局限，但它展现了模拟人类思维和3D一致性的潜力，有望成为世界模拟器。

Sora团队的核心成员和介绍了Sora的功能和为内容创作带来的新机遇。Sora能生成1080p高清、一分钟长的视频，处理复杂的反射和阴影效果，并保持物体的持久性和一致性。它还能学习并理解三维空间，生成不同风格的视频内容，如充满想象力的纸艺世界。Sora为特效制作和内容创作带来突破，能创造出传统CGI技术难以实现的奇幻效果。

Sora技术开辟了内容创作的新机遇，降低了制作成本。它还能实现传统好莱坞设施难以实现的拍摄场景。Sora与艺术家的合作平台目前仅向少数艺术家开放，致力于生成逼真和超现实的内容。艺术家们对Sora技术表示兴奋，认为它将推动内容创作的大众化。

Sora背后的技术原理包括将视觉数据转化为小块，并通过Transformer模型进行训练，实现模型的可扩展性。Sora在动物模拟、3D一致性和物体持久性方面的成功表明了其潜力。然而，Sora在处理相似物理互动方面仍存在挑战，如椅子不被认为是一个物体，或打破玻璃杯的物理行为。

尽管存在挑战，Sora团队对技术的未来充满期待，将其视为视频版的GPT-1，并相信将在短期内取得巨大进步。问答环节中，团队回应了关于AI智能体相互作用、微调、视觉Transformer、视频帧率、物理模型测试、用户反馈、互动视频制作、构建目标、训练数据等问题。他们强调了技术的简单性和大规模扩展的重要性，以及对实现通用人工智能的信心。