统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

AIGC动态1年前 (2024)发布 almosthuman2014

2,427 0 0

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

文章摘要

【关键词】 多模态模型、Transfusion、语言模型、扩散模型、图像生成

Transfusion是一种创新的多模态生成模型，由Meta和Waymo等机构的研究者开发，旨在通过单一模型同时处理离散和连续数据。该模型通过结合语言模型和扩散模型的优势，实现了对文本和图像等数据的高效生成和处理。

在离散模态领域，语言模型主要关注预测下一个词，而在连续模态领域，扩散模型及其泛化形式是先进技术的代表。Transfusion模型通过训练一个transformer来预测离散文本token和扩散连续图像，实现了两种模态的完全集成，避免了信息丢失。

Transfusion模型的核心创新在于将语言模型损失函数与扩散相结合，在混合模态序列上训练单个transformer。研究者还从头开始预训练了多个Transfusion模型，参数量最多可达7B，并针对各种单模态和跨模态基准建立了扩展定律。

实验结果表明，Transfusion模型在扩展能力上显著优于将图像量化并在离散图像token上训练语言模型的方法。通过引入特定于模态的编码和解码层，进一步提高了模型性能。将Transfusion扩展到70亿参数和2万亿多模态token后，能够生成与相似规模的扩散模型和语言模型相媲美的图像和文本，有效结合了两种生成的优点。

在GenEval基准测试中，Transfusion模型（7B参数）在文本生成方面优于DALL-E 2和SDXL等流行模型，同时在文本基准测试中达到了与Llama 1相同的性能水平。这证明了Transfusion是一种有前途的训练真正多模态模型的方法。

Transfusion模型的架构主要由单个transformer组成，用于处理各种模态的序列。为了将数据转换为高维向量空间，研究者使用了轻量级特定于模态的组件，如文本的嵌入矩阵和图像的压缩方法。Transfusion还采用了结合因果注意力和双向注意力的机制，允许图像内部高效信息交流，同时限制与序列前面内容的交互。

在训练过程中，研究者将语言建模目标应用于文本token的预测，将扩散目标应用于图像patch的预测。通过这种方式，Transfusion模型能够在单模态和跨模态基准上展现出优异的性能。

此外，Transfusion模型在图像生成和编辑方面也表现出色。在2T token的数据集上训练的7B参数模型能够生成高质量的图像，并且在图像编辑任务中，经过微调的Transfusion模型能够按照指示执行图像编辑操作。

总之，Transfusion作为一种统一的多模态模型训练方法，通过结合语言模型和扩散模型的优势，在文本和图像生成方面取得了显著的成果。其创新的模型架构和训练方法为多模态数据处理提供了新的思路和可能性。