号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law

号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law

 

文章摘要


【关 键 词】 人工智能图像识别多模态本地运行开源模型

Ai2公司推出了一款名为Molmo的多模态人工智能模型,该模型在功能上类似于钢铁侠的智能助手“贾维斯”。Molmo能够通过一张照片识别自行车的颜色、品牌和二手售价,并能撰写广告语。此外,Molmo还能处理现实世界的问题,如在线订购咖啡。

尽管Molmo的Demo模型功能有限,但在图像描述任务中表现出色,能够注意到细节。然而,Molmo的汉语输出能力有限,即使用户要求输出汉语,它也未能成功。

在性能上,Molmo击败了Claude 3.5 Sonnet和GPT4V等顶尖模型,甚至可以媲美GPT4o。Molmo的优势在于其体积小,可以在本地运行,无需API、订阅或昂贵的GPU集群。Molmo完全免费且开源,所有权重、代码、数据和评估流程即将公布。

Ai2公司的研究团队通过精心挑选和注释60万张图像,使用更少但质量更高的数据来提升模型性能。他们还引入了多样化的数据混合对模型进行微调,包括独特的二维“指向”数据,使Molmo能够用非语言的方式进行解答。

Molmo的模型架构简单,由预处理器、ViT图像编码器、连接器和仅解码器Transformer LLM组成。该团队构建了一个模型系列,通过选择不同的视觉编码器和LLM来赋予不同的参数。

Ai2公司首席执行官Ali Farhadi指出,人工智能界存在“越大越好”的定律,但随着模型规模的扩大,会遇到瓶颈。Molmo系列模型中最高效的是MolmoE-1B,其基于完全开放的OLMoE-1B-7B混合专家LLM,在学术基准和人类评估上的表现接近GPT-4V。

该团队的发布计划包括演示模型、推理代码、技术报告和模型权重。他们还将发布详细的技术报告、PixMo系列数据集、更多模型权重和检查点、训练和评估代码。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3787字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...