标签:Diffusion Transformer
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
本文报道了基于Diffusion Transformer(DiT)的新模型Flag-DiT,该模型由上海AI Lab、港中文和英伟达的研究者联合推出,旨在通过流(Flow-based)的大型扩散T...
没等来OpenAI,等来了Open-Sora全面开源
机器之心编辑部近期报道了OpenAI Sora视频生成模型的开源进展。Sora因其出色的视频生成效果而受到全球关注。在成本降低46%的Sora训练推理复现流程发布两周后...
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
摘要:OpenAI Sora的发布标志着视频生成领域的重大突破。Sora基于Diffusion Transformer架构,与主流的2D Stable Diffusion方法不同。这项工作由中国人民大学...
Stable Diffusion 3提示词与AI图大全:文生图效果堪比Sora文生视频震撼
Stable Diffusion3是Stability AI最新发布的文本到图像模型,它在单词拼写、多主题提示和图像质量方面都有显著提升。尽管目前尚未对外开放,但用户可以在官网...
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
新智元报道了Stability AI最新发布的Stable Diffusion 3.0,这一版本在图像质量、文字渲染和复杂对象理解方面取得了显著提升。Stable Diffusion 3.0采用了与S...
OpenAI 一线员工比国内还“卷”!深度揭秘 Sora 关键技术:时空补丁如何变成OpenAI 的新“魔法”
OpenAI的Sora模型通过时空补丁的创新使用,实现了将静态图像转化为动态、逼真视频的能力。Sora结合了Diffusion和Transformer架构,创建了Diffusion Transform...