Sora三巨头首次解密幕后信息，CTO：最快年内开放

AIGC动态1年前 (2024)发布 QbitAI

2,002 0 0

文章摘要

文章首先介绍了OpenAI CTO Mira Murati在一次访谈中透露了Sora将在今年内开放公测的消息。Sora是一个新的AI技术，可以生成20秒720P视频，计算资源超过ChatGPT和DALL·E，目前正在进行红队测试，未来版本有望支持视频声效。OpenAI在考虑发布这项技术时持谨慎态度，希望与电影界人士和创作者共同探索推动行业发展。另外，Sora的三名研发主管也参与了一场播客访谈，揭示了更多Sora背后的秘密。

关于Sora的发布时间，Mira表示正在进行红队测试，力求确保工具的安全性和避免偏见或其他有害问题，承诺今年年内正式发布。在技术细节方面，Sora类似于介于DALL·E和GPT之间，使用不同尺寸、比例和清晰度的视频进行训练，采用“Patches”方法统一不同视觉数据表现形式。Sora的性能表现也受到关注，不同人员对其生成视频的速度有不同说法，但都在努力优化算法以降低算力需求。

然而，Sora仍存在一些问题，如无法完美处理手部生成、渲染复杂物理过程困难等。目前Sora无法添加视频声音，但团队表示未来版本有望支持，重点仍在提高视频画质和帧率。OpenAI也在考虑为Sora生成的视频加入溯源信息以防止造假，并收集用户反馈以改进产品。未来，Sora有望在视频创作领域发挥更大作用，帮助人类更好地理解视觉信息。

最后，文章探讨了Sora是否可以被称为世界模型的争议，支持者认为Sora对物理世界有一定理解，但反对者认为其训练过程缺乏物理引擎和规律信息。对于Sora的训练数据来源问题，OpenAI给出的说法模糊，未明确是否使用了YouTube、Instagram和Facebook上的视频作为训练数据。整体来看，Sora作为一项新的AI技术，引起了广泛关注和讨论，其未来发展仍有许多问题需要解决和探讨。