千问团队开源图像基础模型 Qwen-Image

AIGC动态8小时前发布 ai-front
79 0 0
千问团队开源图像基础模型 Qwen-Image

 

文章摘要


【关 键 词】 Qwen图像模型开源图像生成训练策略用户评价

千问大模型团队开源了图像基础模型 Qwen-Image,它支持文本到图像(T2I)生成及文本图像到图像(TI2I)编辑任务,在多项基准测试中表现卓越。

Qwen-Image 使用 Qwen2.5-VL 处理文本输入,变分自编码器(VAE)处理图像输入,通过多模态扩散变换器(MMDiT)进行图像生成。该模型在文本渲染方面表现出色,支持英语和中文文本。在 T2I 和 TI2I 基准测试中总体得分最高,在图像理解任务中性能与专门训练的模型“非常接近”。此外,在千问团队创建的 AI Arena 比较网站上,Qwen-Image 目前排名第三,与包括 GPT Image 1 在内的五个高质量闭源模型竞争。

千问团队为创建训练数据集,收集并标注了数十亿对图像文本对,图像涵盖自然、设计、人物和合成数据四类,初始数据集经过大量筛选,还设计了标注框架。在预训练过程中,团队采用多种策略逐步改进模型输出,如逐步提升图像分辨率,引入包含渲染文本、更多样化领域和分辨率分布以及超现实风格或大量文本内容的图像。模型的后训练分为两个阶段,第一阶段是监督微调(SFT),用精心人工标注的数据集生成详细逼真图像;第二阶段是强化学习(RL),采用两种不同策略优化方法,由人类评估者挑选最好和最差的图像。

Hacker News 用户对模型表现高度评价,将其与 gpt-image-1 对比,认为它像功能强大的“多面手”,初步结果显示 gpt-image-1 在清晰度和锐度方面略胜一筹,但不确定 OpenAI 是否仅做了基本锐化处理。Qwen-Image 的代码可在 GitHub 找到,模型文件可从 Huggingface 下载。

原文和模型


【原文链接】 阅读原文 [ 1120字 | 5分钟 ]
【原文作者】 AI前线
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...