智谱AI、清华开源新视觉大模型:刷新41项纪录,同级别最强

AIGC动态18小时前发布 AIGCOPEN
60 0 0
智谱AI、清华开源新视觉大模型:刷新41项纪录,同级别最强

 

文章摘要


【关 键 词】 GLM-4.5V视觉模型多模态训练策略测试表现

智谱AI与清华大学联合开源最新视觉大模型GLM – 4.5V,其在多个领域表现卓越。测试数据显示,GLM – 4.5V在42项主流测试中创造41项新记录,尤其在视觉智能体方面全面超越Qwen2.5 – VL、Kimi – VL – 2506、Gemma – 3等,成为最佳视觉模型

GLM – 4.5V基于智谱旗舰文本基座模型GLM – 4.5 – Air开发,采用独特高效架构,由视觉编码器、MLP适配器和语言解码器三大核心模块组成。视觉编码器引入三维卷积技术,提升视频处理效率,支持64K tokens的多模态长上下文输入,能处理复杂视频序列和特殊图像;MLP适配器将视觉特征转换为语言解码器可对接的格式,融合视觉与语言信息;语言解码器基于GLM – 4.5 – Air,引入三维旋转位置编码,提高对三维空间关系的感知和推理能力。

在训练方面,研究团队构建高质量长链推理数据集,涵盖多领域知识。监督微调阶段采用全参数微调,序列长度32,768,全局批量大小32,训练数据包含多模态数据和长链推理文本数据。还提出强化学习与课程采样框架,改进训练策略提高效率和稳定性。

GLM – 4.5V在多项测试中表现出色。在通用视觉问答领域,于MMBench – V1.1等多个基准测试中超越其他开源模型;在科学、技术、工程和数学任务,如MMMU Pro、MathVerse、WeMath测试中成绩优异;在图表理解、长文档处理、空间推理、GUI智能体任务和编码相关任务中,均大幅领先Qwen2.5 – VL – 72B。这表明GLM – 4.5V在多模态处理、推理、理解和代码实现等方面具有强大能力。

原文和模型


【原文链接】 阅读原文 [ 1836字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...