基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★☆☆
文章摘要
【关 键 词】 华为、诺亚方舟、PixArt-Σ、T2I、自注意力
华为诺亚方舟实验室的研究团队提出了一种新的训练方法,名为由弱到强式训练(weak-to-strong training),旨在解决个人研究者在开发顶级文生图(T2I)模型时面临的资源限制问题。该方法基于去年提出的PixArt-α模型,通过整合高级元素,得到了更强大的PixArt-Σ模型。PixArt-Σ采用了更高质量的训练数据集Internal-Σ,包含了3300万张高分辨率图像,以及更强大的图像描述器Share-Captioner。此外,为了提高生成分辨率至4K,团队引入了针对DiT框架调整过的自注意力模块,并采用了键和值token压缩技术。通过由弱到强式训练策略,PixArt-Σ能够在较低的训练成本和较少的模型参数下生成高质量的4K分辨率图像。实验结果表明,PixArt-Σ在图像质量和与文本prompt的对齐能力上优于其他模型,且参数量仅为0.6B,远低于SDXL和SD Cascade。人类和AI偏好研究也显示,PixArt-Σ生成的图像受到了更高的评价。
原文信息
【原文链接】 阅读原文
【阅读预估】 2222 / 9分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...