人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文
文章摘要
【关 键 词】 生成式AI、Sora模型、AI视频、技术突破、视觉内容
2024年标志着生成式AI技术的飞跃,其中OpenAI的Sora模型在视频生成领域取得了突破性进展,引发了业界的广泛关注。Sora的开发团队由一群敬业的工程师组成,其中包括Tim Brooks和Bill Peebles,他们被誉为“Sora之父”,并担任该项目的研究主管。
Tim Brooks在UC Berkeley的伯克利人工智能研究所(BAIR)攻读博士学位期间,专注于AI视频生成技术,并提出了InstructPix2Pix。他还曾在谷歌和英伟达进行相关研究。Bill Peebles同样在AI视频生成领域有着深入的研究。两人的博士毕业论文均以AI视频生成为主题,为Sora的技术发展奠定了基础。
Tim Brooks的博士论文《Generative Models for Image and Long Video Synthesis》详细介绍了图像和视频生成模型的三个关键研究方向:长视频生成、基于人体姿态的场景图像生成,以及通过结合大型语言模型和文本到图像模型来创建训练数据,指导生成模型遵循图像编辑指令。这些研究不仅推动了视频生成技术的发展,也为视觉内容创作提供了新的可能性。
论文中提出的技术包括一种分层生成器架构,用于生成具有丰富动态和新内容的长视频;一种条件生成模型,通过输入人的骨骼姿态生成与姿态兼容的合理场景;以及一种新技术,教生成模型遵循人类编辑指令,通过结合大型语言模型和文本到图像模型的能力来创建训练数据。这些研究成果展示了生成模型在理解和建模复杂场景、执行图像编辑指令方面的潜力。
Tim Brooks对图像和视频生成模型的未来发展充满信心,认为这些模型已经从小范围的演示发展成为广泛采用的创意工具。Sora的成功不仅证明了OpenAI在生成式AI领域的领先地位,也为整个行业的发展提供了新的方向和启示。随着技术的不断进步,我们有理由相信,生成式AI将在更多领域展现出其巨大的潜力和价值。
原文和模型
【原文链接】 阅读原文 [ 4251字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★