基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

AIGC动态2年前 (2024)发布 almosthuman2014

3,563 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

文章摘要

华为诺亚方舟实验室的研究团队提出了一种新的训练方法，名为由弱到强式训练（weak-to-strong training），旨在解决个人研究者在开发顶级文生图（T2I）模型时面临的资源限制问题。该方法基于去年提出的PixArt-α模型，通过整合高级元素，得到了更强大的PixArt-Σ模型。PixArt-Σ采用了更高质量的训练数据集Internal-Σ，包含了3300万张高分辨率图像，以及更强大的图像描述器Share-Captioner。此外，为了提高生成分辨率至4K，团队引入了针对DiT框架调整过的自注意力模块，并采用了键和值token压缩技术。通过由弱到强式训练策略，PixArt-Σ能够在较低的训练成本和较少的模型参数下生成高质量的4K分辨率图像。实验结果表明，PixArt-Σ在图像质量和与文本prompt的对齐能力上优于其他模型，且参数量仅为0.6B，远低于SDXL和SD Cascade。人类和AI偏好研究也显示，PixArt-Σ生成的图像受到了更高的评价。