深入理解Sora技术原理｜得物技术

AIGC动态2年前 (2024)发布 admin

2,235 0 0

模型信息

【模型公司】 Azure
【模型名称】 gpt-4-32k
【摘要评分】 ★★★★☆

深入理解Sora技术原理｜得物技术

文章摘要

【关键词】 OpenAI、Sora、视频生成、Transformer、潜在扩散模型

视频生成时，获取随机噪声视频，通过训练的视频压缩网络，将噪声视频压缩成低维度的潜在空间数据，以便更好的处理视频数据。将压缩后的潜在空间数据分解成空间时间补丁Patches，这些补丁包含了视频中空间和时间的关系，并将这些补丁转为一维的Tokens数据。将Tokens数据提交给经过扩散模型训练后的Transformer(DiT)，利用Transformer的注意力机制，时刻关注文本提示词中的关键信息，结合扩散模型(Diffusion Model)对Tokens数据进行去噪声，并循环采样观察去噪音后的结果数据是否符合提示词的要求。将去除噪音后的结果数据，利用视频解码器进行解码，将低维潜在空间数据还原成原始视频数据，这里可以实现不同分辨率的视频解码。

Sora的视频生成流程，包括视频压缩网络、空间时间补丁和Diffusion Transformer等关键技术，这些技术的应用使得Sora能够根据文本生成高质量的视频，为视频生成技术开辟了新的可能性。