手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

AIGC动态4个月前发布 AIera
825 0 0
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

 

文章摘要


【关 键 词】 端侧AI多模态实时视频OCR能力高效模型

面壁小钢炮MiniCPM-V 2.6模型以其8亿参数的规模,在端侧多模态领域取得了显著的突破。该模型在单图、多图和视频理解三个方面均达到了20亿参数以下的最佳性能(SOTA),与GPT-4V的性能全面对标甚至超越。MiniCPM-V 2.6模型的推出,标志着端侧AI多模态能力的重大进步,首次将实时视频理解、多图联合理解等复杂功能集成到端侧模型中,使其更接近真实世界的多模态信息处理需求。

MiniCPM-V 2.6模型的特点包括:
1. 三合一最强端侧多模态能力:在单图、多图和视频理解方面全面超越GPT-4V,与多模态领域的领先模型如Gemini 1.5 Pro和GPT-4o mini相媲美。
2. 多项功能首次上端:包括实时视频理解、多图联合理解、多图ICL视觉类比学习、多图OCR等,使端侧模型能够更清晰、直观地理解和模仿真实世界的动态视觉信息。
3. 极致高效:在端侧设备上实现了高像素密度的编码,视觉token相比上一代下降30%,比同类模型低75%,实现了更高的能效比。
4. 端侧友好:量化后端侧内存仅占6GB,推理速度高达18 tokens/s,比上代模型快33%,并支持多种语言和推理框架。
5. 统一高清框架:MiniCPM-V 2.6在OCR能力上延续了SOTA性能,并进一步覆盖单图、多图、视频理解,实现了高效能力一拖三。

MiniCPM-V 2.6模型的推出,不仅在技术层面取得了突破,还在实际应用中展现出了巨大的潜力。例如,在实时视频理解方面,模型能够利用端侧设备的摄像头实时观察和理解真实世界,为人机交互提供了更自然友好的方式。此外,多图联合理解功能的集成,使得模型能够流畅地处理多张图像,如在处理账单或报销时,能够一次性识别多张小票并计算总金额。

MiniCPM-V 2.6模型的多图ICL(上下文少样本学习)功能,通过图文信息的联合理解,激发了模型的潜力,使其能够快速适配特定领域和任务,显著提高了输出稳定性。在OCR能力方面,模型不仅能够识别和提取图像中的文本信息,还能够进行类似CoT(思维链)的复杂推理,如计算奥运会金牌总数等。

面壁小钢炮MiniCPM-V 2.6模型的推出,是面壁长期以来“大模型科学化”路线的结晶。通过科学提升训练方法与数据质量,不断提升大模型的知识密度,得到了性能更强、成本更低的高效模型。同时,面壁不断钻研OCR、多图与视频理解等核心多模态能力创新技术,并持续突破端侧能耗与内存极限,将最优秀的多模态模型放在离用户最近的地方。

MiniCPM-V 2.6模型的开源地址和部署教程已经发布,为广大开发者和研究者提供了便利。模型的下载量已破百万,成为端侧最强多模态领域的标杆性存在。面壁小钢炮系列的以小博大,不仅在技术上取得了突破,更在实际应用中展现出了巨大的潜力和价值。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4247字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...