文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类

AIGC动态1年前 (2024)发布 AIera

2,924 0 0

文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类

文章摘要

Playground Research最近推出了一款名为PGv3的文本到图像模型，该模型在多个方面实现了技术突破。PGv3拥有240亿参数量，采用了深度融合的大型语言模型，使其在图形设计和遵循文本提示指令方面超越了人类设计师。此外，PGv3还支持精确的RGB颜色控制和多语言识别。

PGv3的架构基于DiT的扩散模型，完全集成了大型语言模型（Llama3-8B），以增强其在提示理解和遵循方面的能力。与传统的文本到图像生成模型不同，PGv3采用了仅解码器的大型语言模型，利用其知识进行文本到图像的生成任务。研究人员还开发了一个内部描述生成器，以丰富文本结构的多样性，并引入了新的基准CapsBench来评估详细的图像描述性能。

在模型结构方面，PGv3采用了DiT风格的模型结构，每个Transformer块都与语言模型中的对应块相同，仅包含一个注意力层和一个前馈层。在扩散采样过程中，语言模型部分只需要运行一次，就可以生成所有中间隐藏嵌入。此外，PGv3还采用了U-Net跳跃连接、中间层的token下采样和位置嵌入等技术，以提高性能。

PGv3在文本提示遵循、复杂推理和文本渲染准确率方面表现出色。用户偏好研究表明，PGv3在设计应用中具有超越人类的图形设计能力，如表情包、海报和logo设计。此外，PGv3还能够精确控制RGB颜色和理解多语言。

CapsBench描述基准是PGv3的一个重要组成部分，它提供了一种基于问题的图像描述评估方法。这种方法通过生成问题并使用这些问题评估所提出的描述，有助于全面评估文本到图像模型。

实验结果表明，PGv3在生成真实图像和遵循提示方面都表现出色，尤其是在电影质感方面。PGv3能够生成各种类别的图像，包括海报、logo、表情包等，并能够复现带有定制文本的表情包。此外，PGv3在生成内容中实现了异常精细的颜色控制，超越了标准调色板，使其非常适合需要精确颜色匹配的专业设计场景。最后，PGv3的多语言能力使其能够自然地解释各种语言的提示。