号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law
文章摘要
【关 键 词】 人工智能、图像识别、多模态、本地运行、开源模型
Ai2公司推出了一款名为Molmo的多模态人工智能模型,该模型在功能上类似于钢铁侠的智能助手“贾维斯”。Molmo能够通过一张照片识别自行车的颜色、品牌和二手售价,并能撰写广告语。此外,Molmo还能处理现实世界的问题,如在线订购咖啡。
尽管Molmo的Demo模型功能有限,但在图像描述任务中表现出色,能够注意到细节。然而,Molmo的汉语输出能力有限,即使用户要求输出汉语,它也未能成功。
在性能上,Molmo击败了Claude 3.5 Sonnet和GPT4V等顶尖模型,甚至可以媲美GPT4o。Molmo的优势在于其体积小,可以在本地运行,无需API、订阅或昂贵的GPU集群。Molmo完全免费且开源,所有权重、代码、数据和评估流程即将公布。
Ai2公司的研究团队通过精心挑选和注释60万张图像,使用更少但质量更高的数据来提升模型性能。他们还引入了多样化的数据混合对模型进行微调,包括独特的二维“指向”数据,使Molmo能够用非语言的方式进行解答。
Molmo的模型架构简单,由预处理器、ViT图像编码器、连接器和仅解码器Transformer LLM组成。该团队构建了一个模型系列,通过选择不同的视觉编码器和LLM来赋予不同的参数。
Ai2公司首席执行官Ali Farhadi指出,人工智能界存在“越大越好”的定律,但随着模型规模的扩大,会遇到瓶颈。Molmo系列模型中最高效的是MolmoE-1B,其基于完全开放的OLMoE-1B-7B混合专家LLM,在学术基准和人类评估上的表现接近GPT-4V。
该团队的发布计划包括演示模型、推理代码、技术报告和模型权重。他们还将发布详细的技术报告、PixMo系列数据集、更多模型权重和检查点、训练和评估代码。
原文和模型
【原文链接】 阅读原文 [ 3787字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆