文章摘要
【关 键 词】 AI技术、多模态、开源模型、视觉理解、电商应用
阿里巴巴国际AI团队最近开源了一款名为Ovis1.6的多模态大模型,该模型在多模态领域的权威评测基准OpenCompass上取得了显著成绩,超越了其他主流开源模型,如Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6,成为300亿以下参数开源模型中的佼佼者。Ovis1.6在数学推理和视觉理解等任务上的表现尤为出色,甚至超过了闭源的GPT-4o-mini模型。
Ovis1.6能够处理包括视觉感知推理、数学和科学问题以及生活场景在内的多种多模态任务。它在辅助阅读论文、分析财报以及指导烹饪等方面都展现了出色的能力。该模型遵循Apache 2.0开源协议,对商业用途非常友好。
技术层面上,Ovis1.6的核心创新在于其结构上对齐视觉和文本嵌入的方式。它采用了视觉tokenizer、视觉嵌入表和大语言模型的架构,借鉴了大语言模型中的文本嵌入策略,引入了可学习的视觉嵌入表,将连续的视觉特征转换为结构化的视觉嵌入。这种结构使得视觉和文本信息能够无缝融合,从而提升了模型性能。
与前代Ovis1.5相比,Ovis1.6在架构、数据和训练策略上都进行了优化。架构方面,采用了动态子图方案,以适应不同分辨率的图像特征;数据方面,涵盖了多种类型的数据集,如Caption、OCR、Table、Chart、Math等,确保模型在广泛应用场景中都有出色的表现;训练策略方面,采用了DPO等方案,增强了模型在生成文本和理解复杂指令方面的能力。
Ovis1.6已经被广泛应用于阿里巴巴国际的实际业务中,特别是在出海电商领域。它在退货退款审核、商品属性提取、生成卖点等场景中都已落地应用,显著提高了效率和准确性。此外,阿里巴巴国际还构建了多语言增强大模型Marco和电商版多模态大模型MarcoVL,提供了包括多语言文本生成技术和AI图片处理在内的MaaS服务。
阿里巴巴国际的AI能力已经在跨境电商领域的多个应用场景中实现了规模化应用,如营销、客户服务、商品发布、设计、合规等,服务全球50万商家。AI技术的引入,不仅改变了商家的工作方式,还显著提高了生产效率。Ovis1.6的开源,为开发者提供了宝贵的资源,有助于推动AI技术在更广泛领域的应用和发展。
原文和模型
【原文链接】 阅读原文 [ 1870字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆