GPT-3水平的Sora 就强大到不敢给普通人用?可我也不知道把它用在哪儿

AIGC动态7个月前发布 ai-front
1,099 0 0
GPT-3水平的Sora 就强大到不敢给普通人用?可我也不知道把它用在哪儿

 

文章摘要


【关 键 词】 多模态视频Sora模型Transformer视频生成AI技术

2023年以来,多模态视频生成技术取得了显著的进展,其中OpenAI旗下视频生成模型Sora在2024年2月发布后迅速成为全球焦点。Sora在视频生成效果和质量上具有明显优势,其技术并没有引入全新的理论框架,而是将现有技术进行了新的整合。Sora采用的DiT结构是基于Meta的谢赛宁在ICCV 2023发布的DiT(Diffusion Transformer)思路构建的,这也是支撑Sora的一个重要基础。

Sora在模型架构方面,利用Transformer替代Diffusion的U-Net,不限制原始视频的尺寸,通过Transformer技术保证前后的连贯性,生成时长更长、效果更好的视频。目前,Sora能够生成1分钟的视频,理论上能够生成更长时间的视频,但不确定性和算力需求会增加。

Sora在视频生成中面临的挑战包括保持人物一致性和场景一致性,这是目前业内难以克服的难题。此外,Sora对“世界模型”的实现方式也存在争议,有人质疑其是否真正理解物理世界。

Sora的应用前景广阔,尤其在影视、电商、游戏等行业。在影视行业,Sora有望大幅降低制作成本,提高制作效率。在电商行业,Sora可以提高营销素材制作效率,但要真正应用还需进一步优化。在游戏行业,Sora可以用于大场景、风格转换和季节转换等,提升视觉体验和减少制作成本。

尽管Sora在视频生成方面取得了进步,但图片生成模型在技术上更为成熟,已在多个行业得到广泛应用。Sora的成功表明模型规模的重要性,预期图片领域的基础模型也将取得显著进步。

Sora给就业市场带来的挑战也引起关注,但专家们普遍持乐观态度,认为新技术会激发创造力,提升行业标准。Sora目前仍只是一款工具,不能完全取代某一职位或环节,而是帮助提升工作效率。

最后,AI技术的快速演变和创新超乎预期,我们应该积极参与AI变革,通过不断学习和适应新技术,在AI技术的浪潮中找到自己的位置。对于影视和游戏行业,AI带来的变革正在发生,但目前还缺少一个完整可落地的方案,需要进一步探索和研究。

原文和模型


【原文链接】 阅读原文 [ 5460字 | 22分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...