深入理解Sora技术原理|得物技术

AIGC动态9个月前发布 admin
923 0 0

模型信息


【模型公司】 Azure
【模型名称】 gpt-4-32k
【摘要评分】 ★★★★☆

深入理解Sora技术原理|得物技术
 

文章摘要


【关 键 词】 OpenAISora视频生成Transformer潜在扩散模型

视频生成时,获取随机噪声视频,通过训练的视频压缩网络,将噪声视频压缩成低维度的潜在空间数据,以便更好的处理视频数据。将压缩后的潜在空间数据分解成空间时间补丁Patches,这些补丁包含了视频中空间和时间的关系,并将这些补丁转为一维的Tokens数据。将Tokens数据提交给经过扩散模型训练后的Transformer(DiT),利用Transformer的注意力机制,时刻关注文本提示词中的关键信息,结合扩散模型(Diffusion Model)对Tokens数据进行去噪声,并循环采样观察去噪音后的结果数据是否符合提示词的要求。将去除噪音后的结果数据,利用视频解码器进行解码,将低维潜在空间数据还原成原始视频数据,这里可以实现不同分辨率的视频解码。

Sora的视频生成流程,包括视频压缩网络、空间时间补丁和Diffusion Transformer等关键技术,这些技术的应用使得Sora能够根据文本生成高质量的视频,为视频生成技术开辟了新的可能性。

原文信息


【原文链接】 阅读原文
【阅读预估】 5295 / 22分钟
【原文作者】 得物技术
【作者简介】 技术知识分享交流平台,与你一同走向技术的云端。

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...