智谱AI、清华开源新视觉大模型：刷新41项纪录，同级别最强

358 0 0

文章摘要

智谱AI与清华大学联合开源最新视觉大模型GLM – 4.5V，其在多个领域表现卓越。测试数据显示，GLM – 4.5V在42项主流测试中创造41项新记录，尤其在视觉智能体方面全面超越Qwen2.5 – VL、Kimi – VL – 2506、Gemma – 3等，成为最佳视觉模型。

GLM – 4.5V基于智谱旗舰文本基座模型GLM – 4.5 – Air开发，采用独特高效架构，由视觉编码器、MLP适配器和语言解码器三大核心模块组成。视觉编码器引入三维卷积技术，提升视频处理效率，支持64K tokens的多模态长上下文输入，能处理复杂视频序列和特殊图像；MLP适配器将视觉特征转换为语言解码器可对接的格式，融合视觉与语言信息；语言解码器基于GLM – 4.5 – Air，引入三维旋转位置编码，提高对三维空间关系的感知和推理能力。

在训练方面，研究团队构建高质量长链推理数据集，涵盖多领域知识。监督微调阶段采用全参数微调，序列长度32,768，全局批量大小32，训练数据包含多模态数据和长链推理文本数据。还提出强化学习与课程采样框架，改进训练策略提高效率和稳定性。

GLM – 4.5V在多项测试中表现出色。在通用视觉问答领域，于MMBench – V1.1等多个基准测试中超越其他开源模型；在科学、技术、工程和数学任务，如MMMU Pro、MathVerse、WeMath测试中成绩优异；在图表理解、长文档处理、空间推理、GUI智能体任务和编码相关任务中，均大幅领先Qwen2.5 – VL – 72B。这表明GLM – 4.5V在多模态处理、推理、理解和代码实现等方面具有强大能力。