
文章摘要
【关 键 词】 MiniCPM-V、多模态模型、技术创新、评测出色、影响力大
行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告发布,该模型在多方面表现出色,开源后广受好评。
研究背景与创新突破
多模态大模型发展面临高昂成本和效率瓶颈,尤其是在移动和边缘计算场景。MiniCPM-V 4.5通过技术创新攻克三大效率难题:采用统一3D – Resampler架构,在VideoMME上以低显存和时间开销获得30B以下参数量模型最优性能;提出统一文档OCR与知识学习新范式,在OmniDocBench取得通用MLLM最好表现;使用混合强化学习策略,节省训练开销,平衡快速响应与全面分析。
核心技术
1. 统一的3D – Resampler架构:引入创新3D – Resampler架构,同时在时空方向压缩视频,实现96倍视觉压缩率,多数主流模型处理同等数据需消耗1536Token。该架构实现图像与视频处理统一编码,确保知识和能力无缝迁移,从2D扩展至3D仅需轻量化SFT阶段,降低训练成本。
2. 面向文档的统一OCR和知识学习范式:多模态模型处理文档方法低效,MiniCPM-V 4.5提出统一范式,对文档图像文字区域施加不同程度损坏,创造三种任务,摆脱对外部解析器依赖,提升数据利用率和训练效率,有效提升模型在文档理解等方面能力。
3. 可控混合快速/深度思考的多模态强化学习:通过混合强化学习方法平衡快速思考和深度思考模式,模型通过少量样本冷启动掌握反思与回溯能力,强化学习阶段同时优化两种模式,实现推理能力交叉泛化,节省采样开销。引入RLPR与RLAIF – V两项技术,解决奖励信号获取痛点,抑制模型幻觉现象。
评测结果与实测效果
在OpenCompass综合评测中,MiniCPM-V 4.5取得77.0平均分,超越GPT – 4o – latest等模型,成为30B参数以下性能最佳开源多模态大模型。它在提供SOTA级多模态表现的同时,推理效率高、开销低。在Video – MME评测集上,时间开销仅为同级模型的1/10。
模型影响力
MiniCPM-V 4.5为解决多模态大模型效率瓶颈提供可行路径。MiniCPM-V和MiniCPM – o系列获广泛学术和产业认可,下载量超1300万次,GitHub星标超2万次,相关论文发表在国际著名期刊,谷歌学术引用超600次,还入选多项榜单和成果。
原文和模型
【原文链接】 阅读原文 [ 2521字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★