OpenAI发布视频生成模型Sora，能生成60秒高清视频

AIGC动态1年前 (2024)发布 damoxingLab

1,970 0 0

作者信息

【原文作者】 AI大模型实验室
【作者简介】 关注大模型技术的创新与发展，探索大模型的实际应用，探讨 AI 未来对企业与社会发展的影响。
【微信号】 damoxingLab

文章摘要

OpenAI 最近推出了一款名为 Sora 的创新视频生成模型，这款模型标志性地能够将简短的文本描述转化为最长达一分钟的精细、高清视频片段。这一技术进展在文本到视频生成领域取得了突破性成果，预示着这一领域在未来可能成为研究热点。

Sora 的介绍是在严格保密的前提下进行的，OpenAI 暂时没有发布关于该模型的技术报告，也没有公开展示模型的实际运行情况。尽管如此，通过 OpenAI 向《麻省理工科技评论》展示的样本视频，我们可以看到 Sora 在视频生成方面的高清晰度和细节丰富性，以及在处理物体遮挡等方面的出色表现。

Sora 的开发团队利用了最新版的 OpenAI 旗舰文本到图片模型 DALL-E 3 背后的技术，并引入了一种新技术，将扩散模型与 Transformer 神经网络结合起来，以处理视频数据。这一创新使得 Sora 能够在多种不同类型的视频上进行训练，包括不同的分辨率、时长、宽高比和方向。

然而，OpenAI 特别担心高度逼真的虚假视频可能被误用。为此，Sora 内置了过滤器以拦截所有针对暴力、色情或仇恨内容以及知名人物图像的请求，并将审查生成的视频帧以阻止违反 OpenAI 安全准则的内容。此外，公司还计划将为 DALL-E 3 开发的假图像检测技术适配到 Sora 使用，并在所有输出中加入业界标准的 C2PA 标签。

尽管 Sora 展现了巨大的潜力，但 OpenAI 明确表示，他们在部署这一技术时非常谨慎，并正在考虑在未来某个时间推出这款产品。目前，OpenAI 正在与第三方安全测试人员共享这一模型，并计划与一小部分视频制作者和艺术家合作，收集他们的反馈，以便让 Sora 更好地服务于创意行业专业人士。