统一视觉理解与生成,MetaMorph模型问世,LeCun、谢赛宁、刘壮等参与
文章摘要
【关 键 词】 视觉理解、多模态、LLM、VPiT、MetaMorph
多模态大模型(MLLM)在视觉理解领域取得了显著进展,其中视觉指令调整方法因其数据和计算效率而被广泛应用。Meta和纽约大学的合作论文探讨了大型语言模型(LLM)是否也能通过微调生成视觉信息。研究者提出了视觉预测指令调整(VPiT),它是视觉指令调整的扩展,训练LLM输出连续视觉token和离散文本token。模型输入预训练的视觉编码器嵌入和文本token,输出文本和连续视觉token的组合,并通过扩散模型将视觉token映射回像素空间。
研究显示,预测视觉token的能力源于对视觉输入的理解,且只需极少额外训练。VPiT能高效将LLM转变为理解生成多模态token的统一模型,仅需200k额外视觉生成数据。研究还发现,理解和生成视觉token的能力具有内在联系但不对称,增加理解数据能提高视觉理解和生成性能,而增加生成数据主要提高生成质量,对视觉理解影响较小。基于这些发现,研究者训练了名为MetaMorph的统一模型,使用VPiT预测多模态token,并在视觉理解和视觉生成基准上取得竞争力表现。
MetaMorph能利用LLM的强大功能,从预训练的LLM中提取知识,并在生成视觉token前隐式执行推理步骤。例如,输入提示词“帝王斑蝶幼虫转变形态后的动物”,MetaMorph成功生成了蝴蝶的图像。研究结果表明,使用指令调整训练统一模型是可行的,LLM具有强大的预先存在的视觉功能,这些功能可以使用少得多的样本来激活。VPiT是一种简单的设计,扩展了现有的指令调整方法,以额外生成视觉token,而不仅仅是文本。研究者使用相同的架构和next-token预测范式来解锁视觉生成功能,而无需复杂的设计。他们采用预训练的LLM并对其进行微调以预测离散文本token和连续视觉token,这些视觉token可以使用经过调整的扩散模型来可视化。
研究还探讨了视觉理解与生成的影响与协同作用,发现视觉生成可以通过轻量级调整来解锁,不需要大量数据。更多的视觉理解或生成数据对理解和生成质量的贡献不同,增加理解数据可以带来更好的理解和生成性能,而增加生成数据主要提高生成质量,对视觉理解影响较小。此外,通用、视觉中心和文本理解的VQA任务与视觉生成有很强的相关性,而基于知识的VQA任务则没有。这些发现为混合模态模型的开发提供了新的见解。
原文和模型
【原文链接】 阅读原文 [ 4733字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆