GPT-3水平的Sora 就强大到不敢给普通人用？可我也不知道把它用在哪儿

AIGC动态1年前 (2024)发布 ai-front

3,001 0 0

文章摘要

【关键词】 多模态视频、Sora模型、Transformer、视频生成、AI技术

2023年以来，多模态视频生成技术取得了显著的进展，其中OpenAI旗下视频生成模型Sora在2024年2月发布后迅速成为全球焦点。Sora在视频生成效果和质量上具有明显优势，其技术并没有引入全新的理论框架，而是将现有技术进行了新的整合。Sora采用的DiT结构是基于Meta的谢赛宁在ICCV 2023发布的DiT（Diffusion Transformer）思路构建的，这也是支撑Sora的一个重要基础。

Sora在模型架构方面，利用Transformer替代Diffusion的U-Net，不限制原始视频的尺寸，通过Transformer技术保证前后的连贯性，生成时长更长、效果更好的视频。目前，Sora能够生成1分钟的视频，理论上能够生成更长时间的视频，但不确定性和算力需求会增加。

Sora在视频生成中面临的挑战包括保持人物一致性和场景一致性，这是目前业内难以克服的难题。此外，Sora对“世界模型”的实现方式也存在争议，有人质疑其是否真正理解物理世界。

Sora的应用前景广阔，尤其在影视、电商、游戏等行业。在影视行业，Sora有望大幅降低制作成本，提高制作效率。在电商行业，Sora可以提高营销素材制作效率，但要真正应用还需进一步优化。在游戏行业，Sora可以用于大场景、风格转换和季节转换等，提升视觉体验和减少制作成本。

尽管Sora在视频生成方面取得了进步，但图片生成模型在技术上更为成熟，已在多个行业得到广泛应用。Sora的成功表明模型规模的重要性，预期图片领域的基础模型也将取得显著进步。

Sora给就业市场带来的挑战也引起关注，但专家们普遍持乐观态度，认为新技术会激发创造力，提升行业标准。Sora目前仍只是一款工具，不能完全取代某一职位或环节，而是帮助提升工作效率。

最后，AI技术的快速演变和创新超乎预期，我们应该积极参与AI变革，通过不断学习和适应新技术，在AI技术的浪潮中找到自己的位置。对于影视和游戏行业，AI带来的变革正在发生，但目前还缺少一个完整可落地的方案，需要进一步探索和研究。