文章摘要
【关 键 词】 多模态、图像理解、AI应用、电商优化、开源模型
阿里国际AI团队最近发布了一款名为Ovis的多模态大模型,该模型在图像理解任务上取得了显著进展,多项子类任务达到了SOTA(最新技术)水平。多模态大模型相较于大型语言模型(LLMs),不仅能够处理文本数据,还能处理非文本数据如图像等。
Ovis在多模态权威综合评测平台OpenCompass上的表现尤为突出,其1.6-Gemma2-9B版本在30B参数以下的模型中综合排名第一,超越了MiniCPM-V-2.6等其他行业领先的大模型。Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现,能够准确回答数学问题、识别植物品种、支持多语言文本提取,甚至识别手写字体和复杂数学公式。
Ovis模型的五大优点包括创新的架构设计、高分图像处理能力、全面的数据优化、卓越的模型性能以及全部开源可商用的特性。其架构设计中首次引入了可学习的视觉嵌入词表,提升了多模态任务的表现。Ovis的动态子图方案支持处理极端长宽比的图像,展现了出色的图像理解能力。此外,Ovis在多模态问答、指令跟随等任务上的表现也得到了显著提升。
在AI领域,多模态大模型的应用场景广泛,包括自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。阿里国际的AI团队已经在40多个电商场景中测试了AI能力,覆盖了跨境电商全链路,基于Ovis模型开发的应用帮助了50万中小商家对1亿款商品进行了信息优化。商家对AI的需求不断增长,近半年的数据显示,平均每两个月,商家对AI的调用量就翻一番。
Ovis模型的相关资源包括论文、Github代码库、Huggingface模型页面和Demo,这些资源为研究人员和开发者提供了进一步探索和应用Ovis模型的机会。
原文和模型
【原文链接】 阅读原文 [ 1094字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆