刚刚，Stable Diffusion 3.5重磅开源，文生图模型霸主归来！

AIGC动态1年前 (2024)发布 AIGCOPEN

2,983 0 0

文章摘要

Stability AI，一个专注于AIGC领域的专业社区，最近开源了其最新的文生图模型——Stable Diffusion 3.5。该模型包含三个版本：Large、Large Turbo和Medium，旨在为不同商业环境提供定制化功能，并已针对消费级GPU进行了优化，以便轻松推理运行。

Stable Diffusion 3.5 Large模型拥有80亿参数，以其卓越的图片质量和高度文本语义还原能力，成为家族中最强大的模型，特别适合专业使用，尤其是在处理100万像素分辨率的图片时。而Large Turbo模型是一个蒸馏版本，能够在4步内生成高质量图像，速度远超Large模型，同时保持对提示的高遵循性。Medium模型则计划在10月29日发布，拥有25亿参数，采用改进的MMDiT-X架构和训练方法，能在消费级硬件上快速启动，生成0.25至200万像素的图像，平衡了质量和易定制性。

在开发过程中，Stability AI强调了模型的可定制性，通过将Query-Key归一化集成到变换器块中，不仅稳定了训练过程，还简化了后续的微调和开发。为了支持下游的灵活性，模型设计时有意允许使用不同种子时产生较大的输出变化，以保留更广泛的知识库和多样化的风格。

Stable Diffusion 3.5在可定制性、性能效率和输出多样性方面表现出色，成为市场上最可定制和最易访问的文生图像模型之一，同时在提示遵循性和图像质量方面保持了顶级性能。开源地址为https://huggingface.co/stabilityai，Github地址为https://github.com/Stability-AI/sd3.5。