Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界

AIGC动态10个月前发布 AIera
954 0 0

作者信息


【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era

Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
 

文章摘要


【关 键 词】 Stable Diffusion 3.0AI图像生成Diffusion Transformer流匹配技术开源

新智元报道了Stability AI最新发布的Stable Diffusion 3.0,这一版本在图像质量、文字渲染和复杂对象理解方面取得了显著提升。Stable Diffusion 3.0采用了与Sora相同的Diffusion Transformer架构,并结合了流匹配等技术改进。这一新模型不仅在处理多种类型的输入数据方面表现出色,还计划以开源形式发布,以进一步提升系统的质量和安全性。此外,Stable Diffusion 3.0还支持生成视频、3D内容等,但需要更多的GPU资源来实现更强大的计算能力。

在文字渲染方面,Stable Diffusion 3.0能够根据提示生成指定的文字,并且画面非常写实。例如,它能够正确地在黑板上写出“go big or go home”,并且画面的远近位置、光影都显得极其自然。相比之下,其他模型如DALL-E 3、Midjourney等在文字渲染方面的表现则相对较弱。

在处理包含多个对象的提示方面,Stable Diffusion 3.0同样表现出色。例如,它能够准确地理解并呈现一个宇航员骑着穿着芭蕾舞裙的猪,旁边是一只戴着高顶帽子的知更鸟的场景。这一能力在AI生图模型中是一个关键指标,而Stable Diffusion 3.0在这方面的表现超越了其他模型。

Stable Diffusion 3.0的核心技术进展包括采用Diffusion Transformer技术、系统扩展性增强、处理多种输入数据类型、开源发布、包含完整工具、支持多种规模版本、生成视频和3D内容等。这些进步使得Stable Diffusion 3.0在图像生成领域取得了新的里程碑。

此外,Stable Video也正式开放了公测,基于Stable Video Diffusion 1.1,提供了更易用的体验。尽管与Sora模型还有差距,但Stable Video的视频效果已经可以与Runway相媲美。2024年的AIGC领域注定将迎来更多创新和突破。

原文信息


【原文链接】 阅读原文
【原文字数】 2844
【阅读时长】 10分钟

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...