阿里国际发布最新版多模态大模型Ovis，拿下开源第一

2,056 0 0

文章摘要

阿里国际AI团队最近发布了一款名为Ovis的多模态大模型，该模型在图像理解任务上取得了显著进展，多项子类任务达到了SOTA（最新技术）水平。多模态大模型相较于大型语言模型（LLMs），不仅能够处理文本数据，还能处理非文本数据如图像等。

Ovis在多模态权威综合评测平台OpenCompass上的表现尤为突出，其1.6-Gemma2-9B版本在30B参数以下的模型中综合排名第一，超越了MiniCPM-V-2.6等其他行业领先的大模型。Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现，能够准确回答数学问题、识别植物品种、支持多语言文本提取，甚至识别手写字体和复杂数学公式。

Ovis模型的五大优点包括创新的架构设计、高分图像处理能力、全面的数据优化、卓越的模型性能以及全部开源可商用的特性。其架构设计中首次引入了可学习的视觉嵌入词表，提升了多模态任务的表现。Ovis的动态子图方案支持处理极端长宽比的图像，展现了出色的图像理解能力。此外，Ovis在多模态问答、指令跟随等任务上的表现也得到了显著提升。

在AI领域，多模态大模型的应用场景广泛，包括自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。阿里国际的AI团队已经在40多个电商场景中测试了AI能力，覆盖了跨境电商全链路，基于Ovis模型开发的应用帮助了50万中小商家对1亿款商品进行了信息优化。商家对AI的需求不断增长，近半年的数据显示，平均每两个月，商家对AI的调用量就翻一番。

Ovis模型的相关资源包括论文、Github代码库、Huggingface模型页面和Demo，这些资源为研究人员和开发者提供了进一步探索和应用Ovis模型的机会。