多模态大模型，阿里通义千问能和GPT-4V掰手腕了

AIGC动态2年前 (2024)更新 almosthuman2014

3,242 0 0

作者信息

【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
【微信号】 almosthuman2014

文章摘要

文章介绍了通义千问的图像推理能力的大幅提升，以及大模型领域的未来发展方向。近期，OpenAI推出了GPT-4V，使大模型具备了前所未有的图像语义理解能力。谷歌也发布了Gemini，成为业界第一个原生的多模态大模型。文章指出，多模态是新的方向，而视觉被认为是下一个爆发的赛道。阿里的Qwen-VL-Max在多个测评基准上取得了好成绩，实现了强大的图像理解能力。在多项测评中，Qwen-VL的整体能力已经达到了媲美GPT-4V和Gemini的水平，在多模态大模型领域实现了业内领先。

Qwen-VL的视觉理解大模型经历了几轮迭代，支持以图像、文本作为输入，并以文本、图像、检测框作为输出。经过改进，Qwen-VL的整体能力有了跃升，推出了Plus和Max两大升级版本，获得了堪比Gemini Ultra和GPT-4V的水准。Qwen-VL Plus和Max支持百万像素以上的高清图，具备高水平的基准评测性能和在真实场景中展现出来的解决问题的能力。

文章还介绍了Qwen-VL的一系列实测，包括识别上海外滩的照片、炒饭的卡路里含量等。Qwen-VL模型具备视觉定位能力和针对画面指定区域进行问答的能力，以及基于视觉完成复杂推理的能力。Qwen-VL处理图像中文本的能力也有了显著提高，可以从表格和文档中提取信息，并重新格式化。

文章指出，Qwen-VL的技术实力是经过长期发展积累的，阿里在多模态大模型方向上布局早，开源了OFA，以及一系列视觉生成类成果。文章认为，中国的技术与产品在多模态大模型领域有望与国际大厂掰一掰手腕。最后，文章展望了多模态大模型技术的应用前景，包括提升工作效率、改进AR、VR体验，以及电商领域的革命。