Stable Diffusion 3深夜横空出世！模型与Sora同架构，也能「理解」物理世界

AIGC动态2年前 (2024)发布 AIera

2,994 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 Stable Diffusion 3.0、AI图像生成、Diffusion Transformer、流匹配技术、开源

新智元报道了Stability AI最新发布的Stable Diffusion 3.0，这一版本在图像质量、文字渲染和复杂对象理解方面取得了显著提升。Stable Diffusion 3.0采用了与Sora相同的Diffusion Transformer架构，并结合了流匹配等技术改进。这一新模型不仅在处理多种类型的输入数据方面表现出色，还计划以开源形式发布，以进一步提升系统的质量和安全性。此外，Stable Diffusion 3.0还支持生成视频、3D内容等，但需要更多的GPU资源来实现更强大的计算能力。

在文字渲染方面，Stable Diffusion 3.0能够根据提示生成指定的文字，并且画面非常写实。例如，它能够正确地在黑板上写出“go big or go home”，并且画面的远近位置、光影都显得极其自然。相比之下，其他模型如DALL-E 3、Midjourney等在文字渲染方面的表现则相对较弱。

在处理包含多个对象的提示方面，Stable Diffusion 3.0同样表现出色。例如，它能够准确地理解并呈现一个宇航员骑着穿着芭蕾舞裙的猪，旁边是一只戴着高顶帽子的知更鸟的场景。这一能力在AI生图模型中是一个关键指标，而Stable Diffusion 3.0在这方面的表现超越了其他模型。

Stable Diffusion 3.0的核心技术进展包括采用Diffusion Transformer技术、系统扩展性增强、处理多种输入数据类型、开源发布、包含完整工具、支持多种规模版本、生成视频和3D内容等。这些进步使得Stable Diffusion 3.0在图像生成领域取得了新的里程碑。

此外，Stable Video也正式开放了公测，基于Stable Video Diffusion 1.1，提供了更易用的体验。尽管与Sora模型还有差距，但Stable Video的视频效果已经可以与Runway相媲美。2024年的AIGC领域注定将迎来更多创新和突破。