全员离开老东家,Stable Diffusion一作带团创业,出手即击败MJ v6、SD3,还开源
文章摘要
【关 键 词】 AI研究、图像生成、深度学习、视频技术、技术创新
Black Forest Labs是由AI研究科学家Robin Rombach创立的新公司,专注于开发高质量的图像和视频生成式深度学习模型。Rombach曾是AI初创公司Stability AI的研究科学家,也是文生图模型Stable Diffusion的主要开发者之一。Black Forest Labs团队由杰出的AI研究者和工程师组成,包括Stable Diffusion的其他三位作者Andreas Blattmann、Dominik Lorenz和Patrick Esser。
Black Forest Labs已经完成了3100万美元的种子轮融资,由Andreessen Horowitz领投,其他投资者包括天使投资人Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila、Vladlen Koltun等知名AI研究和创业专家。此外,还获得了General Catalyst和MätchVC的后续投资。
该公司推出了首个模型系列”FLUX.1″,包括三个变体模型:
1. FLUX.1 [pro]:全新的SOTA文生图模型,具有丰富的图像细节、强prompt遵循能力和多样化风格,可通过API使用。
2. FLUX.1 [dev]:FLUX.1 [pro]的开放权重、非商用变体,基于pro模型蒸馏而成,性能优于Midjourney和Stable Diffusion 3等其他图像模型。推理代码和权重已开源在GitHub上。
3. FLUX.1 [schnell]:开源的超高效4-step模型,遵循Apache 2.0协议,在性能上与[dev]、[pro]非常接近,可在Hugging Face上使用。
FLUX.1系列模型采用了多模态和并行扩散Transformer的混合架构,统一扩展为120亿参数的规模。研究团队采用了流匹配框架对之前的SOTA扩散模型进行升级,引入了旋转位置嵌入和并行注意力层,有效提高了模型生成图片的性能和速度。
这三款模型在各自的领域都确立了新标准,无论是生成图像的美观度、图像与文本提示词的附和度、尺寸/宽高比可变性,还是输出格式的多样性,FLUX.1 [pro]和FLUX.1 [dev]都超越了一系列当红图片生成模型。FLUX.1 [schnell]则是迄今为止最先进的少步骤模型,超越了同类竞争对手和强大的非蒸馏模型。
Black Forest Labs的下一步目标是推出所有人可用的SOTA文生视频模型。该公司已经为视频生成模型打下了坚实的基础,朝着为所有人提供最先进文生视频技术的目标前进。
原文和模型
【原文链接】 阅读原文 [ 1591字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆