统一图像生成，无需繁杂插件！智源发布扩散模型框架OmniGen

2,102 0 0

文章摘要

智源研究院最近推出了一款名为OmniGen的新型扩散模型框架，该框架在图像生成领域具有多项创新特性。OmniGen能够天然支持多种图像生成任务，包括文生图、图像编辑、主题驱动生成和视觉条件生成等，并且能够将经典计算机视觉任务转换为图像生成任务。其架构高度简化，用户友好，无需额外插件或复杂步骤即可完成复杂任务。

OmniGen的核心优势在于其统一性和简单性，它通过指令即可完成复杂的图像生成任务，无需额外的模块如ControlNet或IP-Adapter，大大简化了工作流程。此外，OmniGen还能有效跨不同任务迁移知识，应对未见过的任务和领域，并展示新颖的功能。模型还探讨了推理能力和思维链机制在图像生成领域的潜在应用。

OmniGen集成了多种基础图像生成任务，支持基于任意多模态的文图指令完成任务，无需任何其他额外插件和操作。它集多项能力于一体，包括文本到图像生成、指代表达生成、通用图像条件生成、图像编辑以及经典计算机视觉任务等。OmniGen还具备一定的上下文学习能力，能够根据参考样例对图像进行处理。

为了训练模型，智源研究院构建了首个大规模且多样化的统一图像生成数据集X2I，包含约1亿图像，未来将开源，以推动通用图像生成领域的发展。OmniGen的报告、权重和代码等已开源，鼓励社区共同参与对OmniGen潜在能力的发掘、基本性能的提升和广泛应用的探索。智源研究院计划进一步改进模型基本能力，拓展更多有趣的功能，并已发布微调代码，用户可以简单对其进行微调，赋予模型更多有意思的能力。