标签:Diffusion Transformer

DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩

本文报道了基于Diffusion Transformer(DiT)的新模型Flag-DiT,该模型由上海AI Lab、港中文和英伟达的研究者联合推出,旨在通过流(Flow-based)的大型扩散T...

没等来OpenAI,等来了Open-Sora全面开源

机器之心编辑部近期报道了OpenAI Sora视频生成模型的开源进展。Sora因其出色的视频生成效果而受到全球关注。在成本降低46%的Sora训练推理复现流程发布两周后...

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

摘要:OpenAI Sora的发布标志着视频生成领域的重大突破。Sora基于Diffusion Transformer架构,与主流的2D Stable Diffusion方法不同。这项工作由中国人民大学...

Stable Diffusion 3提示词与AI图大全:文生图效果堪比Sora文生视频震撼

Stable Diffusion3是Stability AI最新发布的文本到图像模型,它在单词拼写、多主题提示和图像质量方面都有显著提升。尽管目前尚未对外开放,但用户可以在官网...

Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界

新智元报道了Stability AI最新发布的Stable Diffusion 3.0,这一版本在图像质量、文字渲染和复杂对象理解方面取得了显著提升。Stable Diffusion 3.0采用了与S...

OpenAI 一线员工比国内还“卷”!深度揭秘 Sora 关键技术:时空补丁如何变成OpenAI 的新“魔法”

OpenAI的Sora模型通过时空补丁的创新使用,实现了将静态图像转化为动态、逼真视频的能力。Sora结合了Diffusion和Transformer架构,创建了Diffusion Transform...