文章摘要
【关 键 词】 AI开源、文生图片、模型优化、多模态扩散、性能提升
Stability AI近日宣布开源其文生图片模型——Stable Diffusion 3 Medium(简称SD3-M)。该模型拥有20亿参数,在保证高推理效率的同时,对硬件需求较低,适合在PC、手机和平板等设备上运行。通过与英伟达、AMD的合作,SD3-M对RTX GPU、TensorRT以及最新CPU、MI-300X进行了优化,性能可提升最高50%。
SD3-M采用了多模态扩散变换器(MMDiT)架构,图片质量、排版、复杂文本提示和语义理解等方面表现出色。其预训练数据集包含10亿张图片,并在特定艺术风格和领域上,使用了3000万张图片进行微调及300万张偏好图片。因此,SD3-M在理解用户文本提示和嵌入图片文字方面,相较于前两代有显著提升。
SD3-M在线demo展示了其生成效果的多样性,如未来主义城市景观、宁静的海滩景色、热带雨林、老式餐厅、幻想世界和现代厨房等。用户可免费在线试用并无限生成图片,但需注意,目前SD3-M仅限于学术研究,若要商业化使用,需与Stability AI联系获取商业授权。
原文和模型
【原文链接】 阅读原文 [ 1065字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...