阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!

AI-Agent4个月前发布 AIGCOPEN
817 0 0
阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!

 

文章摘要


【关 键 词】 多模态模型Qwen2-VL开源技术性能领先商业应用

阿里巴巴集团开源了其最新研发的视觉多模态模型Qwen2-VL,这一模型在多项性能指标上超越了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前市场上领先的多模态模型之一。Qwen2-VL不仅支持中文、英文、日文、韩文等多种语言,还能在Apache 2.0协议下进行商业化应用,同时提供了API以助力开发者构建或增强多模态功能的生成式AI应用。

Qwen2-VL具备多项特色功能,包括理解长达20分钟的视频内容,并能够基于视频内容进行问答、对话和内容创作。此外,该模型还能够操作手机和机器人的视觉智能体,以及理解不同分辨率和长宽比的图片。在性能评估方面,Qwen2-VL的72B模型在大学题目、数学、文档表格多语言文字图像理解、通用场景问答、视频理解和Agent等多个方面进行了测试,结果显示其在大部分性能上超越了GPT-4o,尽管在综合大学题目上与GPT-4o仍有差距。7B模型的性能与GPT-4mini相当,尤其在文档理解和多语言文字理解方面达到了业界领先水平。

在模型架构上,Qwen2-VL实现了对原生动态分辨率的全面支持,能够处理任意分辨率的图像输入,并通过动态数量的tokens转换不同大小的图片。此外,Qwen2-VL还引入了多模态旋转位置嵌入(M-ROPE)技术,通过分解原始旋转嵌入为时间、高度和宽度三个部分,使模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息,从而提升了模型的多模态处理和推理能力。

阿里巴巴已经展示了Qwen2-VL在多个实际应用案例中的表现,如对视频内容的详细解读和基于视频内容的问答。用户可以向Qwen2-VL发送视频或图片,并基于内容进行提问,模型能够提供详细准确的回答。这些案例展示了Qwen2-VL在理解和处理多模态数据方面的强大能力,为AI领域的进一步发展和应用提供了新的可能性。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1744字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...