Stable Diffusion 3 发布:模型与 Sora 同架构、解决文字乱码、更好理解物理世界
作者信息
【原文作者】 Founder Park
【作者简介】 来自极客公园,专注与科技创业者聊「真问题」。
【微 信 号】 Founder-Park
文章摘要
【关 键 词】 Stable Diffusion 3.0、DiT架构、图像质量提升、文字渲染、物理世界理解
Stable Diffusion 3.0发布,采用DiT架构,图像质量大幅提升
Stability AI发布了Stable Diffusion 3.0,该版本采用了与Sora相同的DiT架构,显著提升了画面质量、文字渲染和复杂对象理解。与SDXL、MidJourney和Dall-E 3等竞争对手相比,SD3在总体质量上更胜一筹,AI生图效果达到了新里程碑。
图像质量与物理世界理解的进步
Stable Diffusion 3.0在图像质量、多个对象处理和拼写能力方面都有显著提升。模型似乎展现出了对物理世界的更深层次理解。例如,能够正确理解并渲染出在特定背景下的多个对象,如马站在彩色球上的场景,或者正确书写黑板上的文字。
文字渲染能力的提升
SD3模型在文字渲染方面表现出色,能够根据prompt生成指定的文字,并且保持风格的一致性。这得益于Stability AI在新模型中采用的Transformer技术和新增的文本编码功能。
Diffusion Transformer架构的采用
Stable Diffusion 3.0采用了与Sora相似的Diffusion Transformer架构,这是一种新型的架构设计。这种架构使得模型能够更高效地利用计算资源,并在图像生成方面超越其他扩散模型技术。
Stable Video的公测
除了图像生成,Stable Video也正式开放了公测,基于Stable Video Diffusion 1.1。这标志着Stability AI在视频生成领域也取得了进展,虽然与Sora还有差距,但视频效果已经相当出色。
总结
Stable Diffusion 3.0的发布,标志着AI图像生成技术的又一重大进步。其在图像质量、文字渲染和物理世界理解方面的提升,预示着AI在艺术创作和设计领域的潜力将更加巨大。同时,Stable Video的公测也显示了AI在视频生成领域的发展潜力。随着技术的不断进步,AI生成内容(AIGC)的时代正在加速到来。
原文信息
【原文链接】 阅读原文
【原文字数】 3073
【阅读时长】 11分钟