文章摘要
【关 键 词】 AIGC、开源模型、Stable Diffusion、技术创新、商业限制
在人工智能生成内容(AIGC)领域,Stable Diffusion模型由开源大模型平台Stability AI开发,一直备受关注。6月3日,Stability AI的联合首席执行官Christian Laforte在AMD的产品发布会上宣布,新一代的文生图模型Stable Diffusion 3将于6月12日在Hugging Face开源其权重。此次开源的是优化后的Medium版本,拥有20亿参数,相较于前代,在照片真实感、样式、图片质量和算力消耗上都有显著提升。
Stable Diffusion 3被看作是闭源产品Midjourney和DALL·E 3的有力竞争者,其架构已被全球数百万开发者采用,并在文生视频和3D模型中得以借鉴。尽管Stability AI曾经历管理层变动和财务危机的挑战,但开源Stable Diffusion 3的计划得以顺利进行。
新模型采用了与Sora相同的Diffusion Transformer架构,该架构结合了Diffusion模型和Transformer的优势,有效降低了预训练和推理对算力的需求,提升了文本语义理解、文字嵌入和图片样式的处理能力。此外,引入的噪声采样技术和优化的训练方法进一步提高了效率和性能。
Stable Diffusion 3的开源版本仅限于学术研究,禁止商业化用途。对于寻求商业化的开发者,Stability AI提供了会员服务,可使用包括Turbo在内的其他版本。这一举措展示了Stability AI在生成式AI领域的部署和开发方面的努力,并可能通过此举缩小与英伟达等竞争对手的差距。
通过Stable Diffusion 3生成的图片展示了其在场景创意和视觉表现上的潜力,如在教室场景中将学生描绘成有趣的鳄梨形象,以及描绘半透明猪、复古风青蛙和威严巨龙等独特视觉作品,体现了其在艺术创作和想象力激发上的应用价值。随着模型的正式开源,预计将进一步推动AIGC领域的创新与发展。
原文和模型
【原文链接】 阅读原文 [ 1648字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★★☆