超过GPT-image-1!大黑马Black Forest刚开源新模型,只用文本实现一键PS

AIGC动态8小时前发布 AIGCOPEN
73 0 0
超过GPT-image-1!大黑马Black Forest刚开源新模型,只用文本实现一键PS

 

文章摘要


【关 键 词】 开源图像编辑文生图模型技术

知名开源平台Black Forest近期发布了文生图模型FLUX.1-Kontext的开发者版本,该版本专注于图像编辑任务,支持迭代编辑,并能够在各种场景中保留角色特征。FLUX.1-Kontext通过自然语言实现一键P图,类似于Photoshop的功能,用户可以通过简单的指令进行局部和全局的精确编辑,例如为人脸添加胡子或更改服装和场景。该模型的开源地址和Github链接均已公开,便于开发者使用和贡献。

根据Black Forest的测试数据,FLUX.1-Kontext在多项评估基准中表现优异,包括人类偏好评估、指令编辑、文本插入与编辑以及样式参考等,超越了OpenAI的最新文生图模型GPT-image-1,成为目前最强的开源文生图模型之一。FLUX.1-Kontext基于Black Forest之前开源的FLUX.1模型开发,采用了基于流匹配的生成模型架构,利用整流Transformer在图像自动编码器的潜在空间中运行。图像通过冻结的FLUX自动编码器编码为潜在tokens,这些tokens与目标图像tokens结合后送入视觉流,支持不同分辨率和宽高比,并能够扩展到多上下文图像场景。

为了区分上下文和目标内容,模型通过三维旋转位置嵌入编码位置信息,为上下文tokens设置恒定的时间偏移,确保上下文和目标块在保持内部空间结构的同时清晰分离。FLUX.1-Kontext的训练基于整流流匹配损失函数,目标是预测噪声速度以匹配潜在空间中的噪声分布。训练过程中,模型在干净图像和噪声之间进行线性插值,学习预测从混合表示到噪声的速度向量,使其能够同时处理上下文编辑和文本到图像的生成任务。

模型引入了潜在对抗扩散蒸馏技术,通过对抗训练减少采样步骤,将1024×1024图像的生成时间压缩至3-5秒,同时保持样本质量。在训练阶段,模型基于数百万的关系对进行优化,无需针对不同任务进行参数调整或微调,能够无缝处理局部编辑、全局编辑、角色参考、风格参考和文本编辑等任务。例如,在局部编辑中,模型可以修改汽车颜色而保持背景不变;在风格参考任务中,它能提取参考图像的艺术风格并应用于新场景。

FLUX.1-Kontext在多轮编辑中的角色一致性表现尤为突出,通过AuraFace面部嵌入的余弦相似度计算,其在连续编辑中的视觉漂移明显低于竞争对手,这对于品牌形象维护和故事板生成等需要长期一致性的场景至关重要。为了实现快速推理,模型在工程层面进行了多项优化。Black Forest与英伟达合作,专为新的NVIDIA Blackwell架构设计了优化的TensorRT权重,极大提高了推理速度并降低了内存使用量。同时,使用Flash Attention 3和Transformer块的区域编译来提高吞吐量,结合混合精度训练和选择性激活检查点技术,降低显存占用,支持更大规模的模型训练。这些优化使得FLUX.1 Kontext在保持生成质量的同时,实现了比GPT-Image-1等模型快一个数量级的推理速度。

原文和模型


【原文链接】 阅读原文 [ 1156字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...