手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面壁小钢炮开源史上最强端侧多模态

AIGC动态1年前 (2024)发布 AIera

2,374 0 0

手机上能跑的「GPT-4V」来啦！多图、视频理解首次上端！面壁小钢炮开源史上最强端侧多模态

文章摘要

面壁小钢炮MiniCPM-V 2.6模型以其8亿参数的规模，在端侧多模态领域取得了显著的突破。该模型在单图、多图和视频理解三个方面均达到了20亿参数以下的最佳性能（SOTA），与GPT-4V的性能全面对标甚至超越。MiniCPM-V 2.6模型的推出，标志着端侧AI多模态能力的重大进步，首次将实时视频理解、多图联合理解等复杂功能集成到端侧模型中，使其更接近真实世界的多模态信息处理需求。

MiniCPM-V 2.6模型的特点包括：
1. 三合一最强端侧多模态能力：在单图、多图和视频理解方面全面超越GPT-4V，与多模态领域的领先模型如Gemini 1.5 Pro和GPT-4o mini相媲美。
2. 多项功能首次上端：包括实时视频理解、多图联合理解、多图ICL视觉类比学习、多图OCR等，使端侧模型能够更清晰、直观地理解和模仿真实世界的动态视觉信息。
3. 极致高效：在端侧设备上实现了高像素密度的编码，视觉token相比上一代下降30%，比同类模型低75%，实现了更高的能效比。
4. 端侧友好：量化后端侧内存仅占6GB，推理速度高达18 tokens/s，比上代模型快33%，并支持多种语言和推理框架。
5. 统一高清框架：MiniCPM-V 2.6在OCR能力上延续了SOTA性能，并进一步覆盖单图、多图、视频理解，实现了高效能力一拖三。

MiniCPM-V 2.6模型的推出，不仅在技术层面取得了突破，还在实际应用中展现出了巨大的潜力。例如，在实时视频理解方面，模型能够利用端侧设备的摄像头实时观察和理解真实世界，为人机交互提供了更自然友好的方式。此外，多图联合理解功能的集成，使得模型能够流畅地处理多张图像，如在处理账单或报销时，能够一次性识别多张小票并计算总金额。

MiniCPM-V 2.6模型的多图ICL（上下文少样本学习）功能，通过图文信息的联合理解，激发了模型的潜力，使其能够快速适配特定领域和任务，显著提高了输出稳定性。在OCR能力方面，模型不仅能够识别和提取图像中的文本信息，还能够进行类似CoT（思维链）的复杂推理，如计算奥运会金牌总数等。

面壁小钢炮MiniCPM-V 2.6模型的推出，是面壁长期以来“大模型科学化”路线的结晶。通过科学提升训练方法与数据质量，不断提升大模型的知识密度，得到了性能更强、成本更低的高效模型。同时，面壁不断钻研OCR、多图与视频理解等核心多模态能力创新技术，并持续突破端侧能耗与内存极限，将最优秀的多模态模型放在离用户最近的地方。

MiniCPM-V 2.6模型的开源地址和部署教程已经发布，为广大开发者和研究者提供了便利。模型的下载量已破百万，成为端侧最强多模态领域的标杆性存在。面壁小钢炮系列的以小博大，不仅在技术上取得了突破，更在实际应用中展现出了巨大的潜力和价值。