突发！Stable Diffusion 3，可通过API使用啦

AIGC动态1年前 (2024)发布 AIGCOPEN

2,138 0 0

文章摘要

4月18日，Stability.ai宣布其最新文生图模型Stable Diffusion 3（SD3）和SD3 Turbo已经可以在API中使用，由知名API管理平台Fireworks AI提供服务。相比前两代模型，SD3在生成图片质量更高的同时，能够更好地理解提示文本中嵌入到图片中的文字，实现更精准的文字嵌入。SD3的模型权重将很快向Stability AI会员提供，可以在本地部署、运行SD3。

SD3是一个重要的文生图模型，其最大技术创新在于使用了MM-DiT和Flow Matching两种方法来增强模型的输出、训练和优化，同时支持文本或图像作为提示实现多模态能力。传统的文生图模型在生成过程中通常只考虑图像本身，没有充分利用文本信息，导致输出结果出现不匹配或扭曲的情况。MM-DiT通过结合Transformer的自注意力机制，帮助模型更好地匹配文本和图像，确保生成的图像能够反映出文本中的所有细节。Flow Matching则是一种用于训练Rectified Flow模型的方法，通过最小化生成路径上的误差来改善模型性能，帮助模型学习从随机噪声快速转换到目标图像。

SD3的生成效果展示了其强大的能力，例如生成的图片质量比较优秀，尤其在文字嵌入方面表现出色。例如，SD3可以轻松实现将文字精准嵌入到图片的指定位置，展示出色彩缤纷的魔法世界或者一位巫师创作的艺术作品等。这些展示表明SD3在多模态数据处理方面具有出色的性能，能够深度理解文本提示中的嵌入文字，生成高质量的图像。

总的来说，SD3作为一款先进的文生图模型，通过引入MM-DiT和Flow Matching等技术创新，实现了更好的文本与图像匹配能力，提高了生成图片的质量和准确性。其在多模态数据处理方面的表现优秀，为用户提供了更好的使用体验，展示了在AIGC领域的潜力和应用前景。