Stable Diffusion 3 发布：模型与 Sora 同架构、解决文字乱码、更好理解物理世界

AIGC动态2年前 (2024)发布 Founder Park

2,103 0 0

作者信息

【原文作者】 Founder Park
【作者简介】 来自极客公园，专注与科技创业者聊「真问题」。
【微信号】 Founder-Park

文章摘要

【关键词】 Stable Diffusion 3.0、DiT架构、图像质量提升、文字渲染、物理世界理解

Stable Diffusion 3.0发布，采用DiT架构，图像质量大幅提升
Stability AI发布了Stable Diffusion 3.0，该版本采用了与Sora相同的DiT架构，显著提升了画面质量、文字渲染和复杂对象理解。与SDXL、MidJourney和Dall-E 3等竞争对手相比，SD3在总体质量上更胜一筹，AI生图效果达到了新里程碑。

图像质量与物理世界理解的进步
Stable Diffusion 3.0在图像质量、多个对象处理和拼写能力方面都有显著提升。模型似乎展现出了对物理世界的更深层次理解。例如，能够正确理解并渲染出在特定背景下的多个对象，如马站在彩色球上的场景，或者正确书写黑板上的文字。

文字渲染能力的提升
SD3模型在文字渲染方面表现出色，能够根据prompt生成指定的文字，并且保持风格的一致性。这得益于Stability AI在新模型中采用的Transformer技术和新增的文本编码功能。

Diffusion Transformer架构的采用
Stable Diffusion 3.0采用了与Sora相似的Diffusion Transformer架构，这是一种新型的架构设计。这种架构使得模型能够更高效地利用计算资源，并在图像生成方面超越其他扩散模型技术。

Stable Video的公测
除了图像生成，Stable Video也正式开放了公测，基于Stable Video Diffusion 1.1。这标志着Stability AI在视频生成领域也取得了进展，虽然与Sora还有差距，但视频效果已经相当出色。

总结
Stable Diffusion 3.0的发布，标志着AI图像生成技术的又一重大进步。其在图像质量、文字渲染和物理世界理解方面的提升，预示着AI在艺术创作和设计领域的潜力将更加巨大。同时，Stable Video的公测也显示了AI在视频生成领域的发展潜力。随着技术的不断进步，AI生成内容（AIGC）的时代正在加速到来。