一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入「一键生成」时代

AIGC动态3周前发布 AIera
332 0 0
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入「一键生成」时代

 

文章摘要


【关 键 词】 图像生成知识迁移Transformer数据集X2I开源模型

智源最近推出了一款名为OmniGen的新型扩散模型架构,旨在实现图像生成任务的统一。OmniGen模型以其统一性、简单性和知识迁移能力为特点,能够处理包括文生图、图像编辑、主题驱动生成和视觉条件生成在内的多种图像生成任务,同时还能应对经典计算机视觉任务。该模型简化了工作流程,减少了对额外模块和插件的依赖,使得用户能够通过指令完成复杂任务。

OmniGen模型的核心是一个Transformer模型和一个VAE模块,总参数量达到3.8B。该模型采用了双向注意力机制以适应图像数据的特性。为了训练这一模型,研究人员构建了一个名为X2I的大规模多样化数据集,包含约1亿图像,旨在推动通用图像生成领域的发展。X2I数据集的不同任务数据格式经过重新组织和统一,以便于管理和使用。

OmniGen展示了其在文本到图像生成、指代表达生成、通用图像条件生成、图像编辑等方面的能力。此外,模型还具备一定的上下文学习能力和推理能力,能够处理非显式查询指令和根据参考样例对图像进行处理。研究人员还探索了将思维链方法应用于图像生成的可能性,模仿人类一步一步的绘画过程,从空白画布上迭代地生成图像。

OmniGen模型的权重和代码已经开源,允许用户自行探索其更多能力。智源期望OmniGen能够为图像生成领域带来新的突破,提供更灵活、高效的解决方案。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2130字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...