Stable Diffusion 3更多隐藏功能曝光：文字可更改图片细节

AIGC动态2年前 (2024)发布 QbitAI

2,495 0 0

作者信息

【原文作者】 量子位
【作者简介】 追踪人工智能新趋势，关注科技行业新突破
【微信号】 QbitAI

文章摘要

文章主要介绍了Stable Diffusion 3的三大能力和效果展示。首先，Stable Diffusion 3的文字渲染水平得到了显著提高，能够实现各种复杂的文字效果。其次，该模型的多主题提示能力也得到了大幅提升，可以同时处理多个元素，使作品更加丰富。最后，Stable Diffusion 3的图像质量也有了进一步的提高，能够生成高质量的超清特写图像。

此外，文章还提到了Stable Diffusion 3的一些其他功能和特性，如简单的文字精准控制图像中的每一个元素，包括替换和删除；能够将背景换成水族缸等。同时，Stable Diffusion 3还能够无缝转换视频，并且提供3D视图。

在技术方面，Stable Diffusion 3主要结合了扩散型transformer架构以及flow matching。其中，扩散型transformer架构的研究论文被ICCV 2023录用为Oral论文，而flow matching则是来自Meta AI以及魏茨曼科学研究所的科学家的研究成果。

最后，文章还提到了Stable Diffusion 3的视频产品Stable Video已经正式开放公测，主要支持文生视频和图生视频两个功能。