统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

AIGC动态8个月前发布 almosthuman2014

2,031 0 0

文章摘要

多模态大模型（MLLM）在视觉理解领域取得了显著进展，其中视觉指令调整方法因其数据和计算效率而被广泛应用。Meta和纽约大学的合作论文探讨了大型语言模型（LLM）是否也能通过微调生成视觉信息。研究者提出了视觉预测指令调整（VPiT），它是视觉指令调整的扩展，训练LLM输出连续视觉token和离散文本token。模型输入预训练的视觉编码器嵌入和文本token，输出文本和连续视觉token的组合，并通过扩散模型将视觉token映射回像素空间。

研究显示，预测视觉token的能力源于对视觉输入的理解，且只需极少额外训练。VPiT能高效将LLM转变为理解生成多模态token的统一模型，仅需200k额外视觉生成数据。研究还发现，理解和生成视觉token的能力具有内在联系但不对称，增加理解数据能提高视觉理解和生成性能，而增加生成数据主要提高生成质量，对视觉理解影响较小。基于这些发现，研究者训练了名为MetaMorph的统一模型，使用VPiT预测多模态token，并在视觉理解和视觉生成基准上取得竞争力表现。

MetaMorph能利用LLM的强大功能，从预训练的LLM中提取知识，并在生成视觉token前隐式执行推理步骤。例如，输入提示词“帝王斑蝶幼虫转变形态后的动物”，MetaMorph成功生成了蝴蝶的图像。研究结果表明，使用指令调整训练统一模型是可行的，LLM具有强大的预先存在的视觉功能，这些功能可以使用少得多的样本来激活。VPiT是一种简单的设计，扩展了现有的指令调整方法，以额外生成视觉token，而不仅仅是文本。研究者使用相同的架构和next-token预测范式来解锁视觉生成功能，而无需复杂的设计。他们采用预训练的LLM并对其进行微调以预测离散文本token和连续视觉token，这些视觉token可以使用经过调整的扩散模型来可视化。

研究还探讨了视觉理解与生成的影响与协同作用，发现视觉生成可以通过轻量级调整来解锁，不需要大量数据。更多的视觉理解或生成数据对理解和生成质量的贡献不同，增加理解数据可以带来更好的理解和生成性能，而增加生成数据主要提高生成质量，对视觉理解影响较小。此外，通用、视觉中心和文本理解的VQA任务与视觉生成有很强的相关性，而基于知识的VQA任务则没有。这些发现为混合模态模型的开发提供了新的见解。