一个模型走天下！智源提出全新扩散架构OmniGen，AI生图进入「一键生成」时代

2,407 0 0

文章摘要

【关键词】 图像生成、知识迁移、Transformer、数据集X2I、开源模型

智源最近推出了一款名为OmniGen的新型扩散模型架构，旨在实现图像生成任务的统一。OmniGen模型以其统一性、简单性和知识迁移能力为特点，能够处理包括文生图、图像编辑、主题驱动生成和视觉条件生成在内的多种图像生成任务，同时还能应对经典计算机视觉任务。该模型简化了工作流程，减少了对额外模块和插件的依赖，使得用户能够通过指令完成复杂任务。

OmniGen模型的核心是一个Transformer模型和一个VAE模块，总参数量达到3.8B。该模型采用了双向注意力机制以适应图像数据的特性。为了训练这一模型，研究人员构建了一个名为X2I的大规模多样化数据集，包含约1亿图像，旨在推动通用图像生成领域的发展。X2I数据集的不同任务数据格式经过重新组织和统一，以便于管理和使用。

OmniGen展示了其在文本到图像生成、指代表达生成、通用图像条件生成、图像编辑等方面的能力。此外，模型还具备一定的上下文学习能力和推理能力，能够处理非显式查询指令和根据参考样例对图像进行处理。研究人员还探索了将思维链方法应用于图像生成的可能性，模仿人类一步一步的绘画过程，从空白画布上迭代地生成图像。

OmniGen模型的权重和代码已经开源，允许用户自行探索其更多能力。智源期望OmniGen能够为图像生成领域带来新的突破，提供更灵活、高效的解决方案。