LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

AIGC动态1年前 (2024)发布 AIera

3,172 0 0

文章摘要

【关键词】 多模态学习、视觉表征、模型评估、Cambrian-1、研究创新

LeCun和谢赛宁团队近日推出了Cambrian-1，一种采用以视觉为中心方法设计的多模态大语言模型（MLLM），并全面开源了模型权重、代码、数据集以及详细的指令微调和评估方法。Cambrian-1的研究重点在于五个关键方面：视觉表示、连接器设计、指令微调数据、指令微调策略和基准测试。

Cambrian-1项目认为，改进的视觉能力不仅仅是看得更远，而是更深入地理解，为更多以视觉为中心的探索铺平道路。研究团队通过比较23个不同视觉主干训练的MLLM，在不同基准测试中的表现，发现一些基准不太依赖视觉输入，而其他基准则显著依赖视觉输入，表明后者能够对MLLM进行有效评估。

此外，Cambrian-1项目还训练出了一个目前性能最强的多模态模型。论文的一作Shengbang Tong是马毅教授在伯克利的学生，目前在NYU读博士一年级。马毅教授表示，这个模型是在过去几个月借谷歌的TPU训练的，等价于1000张A100的算力。谢赛宁表示，世界不需要另一个MLLM与GPT-4V竞争，Cambrian在以视觉为核心的探索是独一无二的。

Cambrian-1项目的研究动机源于当前多模态学习研究存在的两个潜在问题：1. 过早地依赖语言可能会成为一种捷径，弥补学习有效视觉表征的缺陷；2. 现有的基准可能无法为现实场景提供足够的指导，毕竟，视觉基础对于稳健的多模态理解至关重要。研究人员已经开始注意到，视觉基础早已成为在具有挑战性的现实世界中应用MLLM的瓶颈。

为了有效评估视觉表征和MLLM，研究人员比较了使用不同视觉主干训练的MLLM，在不同基准测试中的表现。实验结果表明，一些基准不太依赖视觉输入，而在其他基准上则出现了显著的性能下降，表明后者能够对MLLM进行有效评估。Cambrian-1项目为未来的视觉表征开发提供了全新的协议基准，从而更好地指导现实场景中的多模态理解。

这项研究得到了业界和学界的广泛关注和认可。爱丁堡大学机器学习博士Yao Fu表示，作为一个想要了解视觉语言的LLM学者，他发现这篇论文有极高信息量，直接回答了他的困惑。斯坦福大学博士后研究员Karl Pertsch畅想了这项研究的前景，认为视觉语言模型（VLMs）在视觉方面还有很大的改进空间，机器人学也可能是一个很好的测试平台。

总之，Cambrian-1项目为多模态大语言模型的研究提供了新的视角和方法，强调了视觉表征在多模态学习中的重要性，并为未来的研究和应用提供了有价值的参考和指导。