文章摘要
【关 键 词】 AIGC社区、开源模型、图像生成、定制化功能、性能优化
Stability AI,一个专注于AIGC领域的专业社区,最近开源了其最新的文生图模型——Stable Diffusion 3.5。该模型包含三个版本:Large、Large Turbo和Medium,旨在为不同商业环境提供定制化功能,并已针对消费级GPU进行了优化,以便轻松推理运行。
Stable Diffusion 3.5 Large模型拥有80亿参数,以其卓越的图片质量和高度文本语义还原能力,成为家族中最强大的模型,特别适合专业使用,尤其是在处理100万像素分辨率的图片时。而Large Turbo模型是一个蒸馏版本,能够在4步内生成高质量图像,速度远超Large模型,同时保持对提示的高遵循性。Medium模型则计划在10月29日发布,拥有25亿参数,采用改进的MMDiT-X架构和训练方法,能在消费级硬件上快速启动,生成0.25至200万像素的图像,平衡了质量和易定制性。
在开发过程中,Stability AI强调了模型的可定制性,通过将Query-Key归一化集成到变换器块中,不仅稳定了训练过程,还简化了后续的微调和开发。为了支持下游的灵活性,模型设计时有意允许使用不同种子时产生较大的输出变化,以保留更广泛的知识库和多样化的风格。
Stable Diffusion 3.5在可定制性、性能效率和输出多样性方面表现出色,成为市场上最可定制和最易访问的文生图像模型之一,同时在提示遵循性和图像质量方面保持了顶级性能。开源地址为https://huggingface.co/stabilityai,Github地址为https://github.com/Stability-AI/sd3.5。
原文和模型
【原文链接】 阅读原文 [ 631字 | 3分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆