语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

AIGC动态5个月前发布 AIera
917 0 0
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

 

文章摘要


【关 键 词】 多模态AITransfusion模型图像生成文本生成Transformer技术

Meta公司最新发布的Transfusion模型,成功实现了语言模型和图像生成的统一,为多模态AI模型的发展迈出了重要一步。Transfusion模型融合了Transformer和Diffusion技术,通过将语言建模与扩散相结合,实现了在混合模态序列上训练单个Transformer的目标。该模型在单模态和多模态基准测试中表现出色,具有更好的扩展性,能够生成高质量的图像和文本。

Transfusion模型的主要创新包括全局因果注意力和每个图像内的双向注意力,以及引入模态特定的编码和解码层,提高了性能并实现了图像压缩。实验结果表明,Transfusion模型在图像生成方面与类似规模的扩散模型相媲美,同时保持了强大的文本生成能力。此外,Transfusion模型在GenEval基准测试上超越了DALL-E 2和Stable Diffusion XL,显示出其生图质量非常高。

研究者还对Transfusion模型进行了图像编辑的微调,证明了模型能够适应并泛化到新的模态组合。Transfusion模型的成功训练为真正的多模态AI模型的实现提供了可能,这些模型可以无缝处理任何离散和连续模态的组合,如长篇视频生成、与图像或视频的交互式编辑/生成会话等。

Transfusion模型的架构主要由一个单一的Transformer组成,处理每个序列,无论模态如何。为了将数据转换到这个空间,研究者使用了具有不共享参数的轻量级模态组件。在训练过程中,研究者将语言建模目标应用于文本token的预测,将扩散目标应用于图像块的预测,通过合并这两种损失来训练模型。

在实验中,Transfusion模型与Chameleon模型进行了比较,结果显示Transfusion在不同模型规模和token计数下始终表现出更好的scaling law。此外,研究者还进行了架构消融实验,探讨了注意力掩码、块大小、块编码/解码架构和图像加噪等因素对模型性能的影响。

总之,Transfusion模型的提出为多模态AI模型的发展提供了新的可能性,其在图像和文本生成方面的优异表现,以及对不同模态的适应和泛化能力,为未来的多模态应用奠定了基础。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4922字 | 20分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...