基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了

AIGC动态8个月前发布 almosthuman2014
1,702 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
 

文章摘要


【关 键 词】 华为诺亚方舟PixArt-ΣT2I自注意力

华为诺亚方舟实验室的研究团队提出了一种新的训练方法,名为由弱到强式训练(weak-to-strong training),旨在解决个人研究者在开发顶级文生图(T2I)模型时面临的资源限制问题。该方法基于去年提出的PixArt-α模型,通过整合高级元素,得到了更强大的PixArt-Σ模型。PixArt-Σ采用了更高质量的训练数据集Internal-Σ,包含了3300万张高分辨率图像,以及更强大的图像描述器Share-Captioner。此外,为了提高生成分辨率至4K,团队引入了针对DiT框架调整过的自注意力模块,并采用了键和值token压缩技术。通过由弱到强式训练策略,PixArt-Σ能够在较低的训练成本和较少的模型参数下生成高质量的4K分辨率图像。实验结果表明,PixArt-Σ在图像质量和与文本prompt的对齐能力上优于其他模型,且参数量仅为0.6B,远低于SDXLSD Cascade。人类和AI偏好研究也显示,PixArt-Σ生成的图像受到了更高的评价。

原文信息


【原文链接】 阅读原文
【阅读预估】 2222 / 9分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明

相关文章

暂无评论

暂无评论...