LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

AIGC动态5个月前发布 AIera
1,190 0 0
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

 

文章摘要


【关 键 词】 多模态学习视觉表征模型评估Cambrian-1研究创新

LeCun和谢赛宁团队近日推出了Cambrian-1,一种采用以视觉为中心方法设计的多模态大语言模型(MLLM),并全面开源了模型权重、代码、数据集以及详细的指令微调和评估方法。Cambrian-1的研究重点在于五个关键方面:视觉表示、连接器设计、指令微调数据、指令微调策略和基准测试。

Cambrian-1项目认为,改进的视觉能力不仅仅是看得更远,而是更深入地理解,为更多以视觉为中心的探索铺平道路。研究团队通过比较23个不同视觉主干训练的MLLM,在不同基准测试中的表现,发现一些基准不太依赖视觉输入,而其他基准则显著依赖视觉输入,表明后者能够对MLLM进行有效评估。

此外,Cambrian-1项目还训练出了一个目前性能最强的多模态模型。论文的一作Shengbang Tong是马毅教授在伯克利的学生,目前在NYU读博士一年级。马毅教授表示,这个模型是在过去几个月借谷歌的TPU训练的,等价于1000张A100的算力。谢赛宁表示,世界不需要另一个MLLM与GPT-4V竞争,Cambrian在以视觉为核心的探索是独一无二的。

Cambrian-1项目的研究动机源于当前多模态学习研究存在的两个潜在问题:1. 过早地依赖语言可能会成为一种捷径,弥补学习有效视觉表征的缺陷;2. 现有的基准可能无法为现实场景提供足够的指导,毕竟,视觉基础对于稳健的多模态理解至关重要。研究人员已经开始注意到,视觉基础早已成为在具有挑战性的现实世界中应用MLLM的瓶颈。

为了有效评估视觉表征和MLLM,研究人员比较了使用不同视觉主干训练的MLLM,在不同基准测试中的表现。实验结果表明,一些基准不太依赖视觉输入,而在其他基准上则出现了显著的性能下降,表明后者能够对MLLM进行有效评估。Cambrian-1项目为未来的视觉表征开发提供了全新的协议基准,从而更好地指导现实场景中的多模态理解。

这项研究得到了业界和学界的广泛关注和认可。爱丁堡大学机器学习博士Yao Fu表示,作为一个想要了解视觉语言的LLM学者,他发现这篇论文有极高信息量,直接回答了他的困惑。斯坦福大学博士后研究员Karl Pertsch畅想了这项研究的前景,认为视觉语言模型(VLMs)在视觉方面还有很大的改进空间,机器人学也可能是一个很好的测试平台。

总之,Cambrian-1项目为多模态大语言模型的研究提供了新的视角和方法,强调了视觉表征在多模态学习中的重要性,并为未来的研究和应用提供了有价值的参考和指导。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 6019字 | 25分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...