文本生成4K超高清图像,华为等推出创新模型PixArt-Σ

AIGC动态8个月前发布 AIGCOPEN
1,013 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文本生成4K超高清图像,华为等推出创新模型PixArt-Σ
 

文章摘要


【关 键 词】 PixArtΣ4K文本生成注意力机制

是由华为诺亚方舟实验室大连理工大学香港大学的研究人员推出的一款文本生成4K超高清图像的模型。与上一代PixArt相比,在图像质量、细节、训练效率以及文本语义理解等方面都有显著提升。其中,采用了DiT架构和高效的注意力模块来压缩Key和Value,通过局部聚合和特殊的权重初始化方案,使得模型能够更高效地生成4K分辨率图像。该模型的核心技术在于提出了一种”从弱到强“的训练方法,通过融入高质量的训练数据和高效Tokens压缩注意力模块,成功实现了从弱模型到强模型的高效演化。

高效Tokens压缩注意力机制的关键技术之一,通过对Key和Value进行压缩,保留所有的Query,从而降低了计算复杂度。这种机制利用局部聚合操作和特殊的权重初始化方案,使得模型在生成4K图像时训练和推理的时间大幅缩减,节省了AI算力。另外,采用了从弱到强的训练策略,先从低分辨率开始逐步提升分辨率,避免了模型难以适应的问题,同时借助”位置嵌入插值“技术加速模型效率。

为了提升生成图像的质量和多样性,研究人员搜集了一个包含3300万张高分辨率图像的数据集Internal-Σ,其中包含了大量4K分辨率的图像。这些高分辨率图像为模型提供了更多样的风格和真实数据分布,同时采用了更强大的Share-Captioner模型来生成详细准确的图像文本描述。在生成图片方面展现出了优秀的质量、细节和语义还原能力,例如华丽的珊瑚礁纸艺世界模特特写照片以及乐高模型未来火箭站等。

总的来说,通过创新的技术和训练方法,实现了在文本生成4K超高清图像领域的重大突破,为图像生成领域的发展带来了新的可能性。

原文信息


【原文链接】 阅读原文
【阅读预估】 1279 / 6分钟
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

© 版权声明

相关文章

暂无评论

暂无评论...