实时视频理解首次上端！面壁小钢炮2.6 携单图、多图、视频理解3 SOTA，全面对标 GPT-4V 最强多模态

AIGC动态1年前 (2024)发布 ai-front

2,374 0 0

实时视频理解首次上端！面壁小钢炮2.6 携单图、多图、视频理解3 SOTA，全面对标 GPT-4V 最强多模态

文章摘要

面壁智能于8月6日推出了MiniCPM-V 2.6模型，这是一款具有8B参数的端侧多模态模型，它首次集成了实时视频理解、多图联合理解等能力。MiniCPM-V 2.6以其小尺寸、高效低成本的特点，实现了单图、多图、视频理解等多模态核心能力，超越了GPT-4V。它在端侧模型中首次实现了实时视频理解、多图联合理解、多图ICL视觉类比学习、多图OCR等功能，提高了模型的观察和理解能力。

MiniCPM-V 2.6在单token编码像素密度方面取得了显著成果，是GPT-4o的两倍，视觉token数量相比上一代下降了30%，比同类模型低75%。端侧内存仅占6GB，推理速度高达18 tokens/s，比上代模型快33%。此外，该模型还支持多种语言，并在OCR性能上实现了开源和闭源模型的SOTA。

MiniCPM-V 2.6在单图、多图、视频理解方面均达到了SOTA水平。在OpenCompass平台上，其单图理解能力超越了Gemini 1.5 Pro和GPT-4o mini；在Mantis-Eval平台上，其多图联合理解能力实现了开源模型SOTA，并超越了GPT-4V；在Video-MME平台上，其视频理解能力达到了端侧SOTA，超越了GPT-4V。

此外，MiniCPM-V 2.6在OCRBench上的OCR性能也实现了开源+闭源模型SOTA，延续了小钢炮系列在端侧OCR能力上的优势。在Object HalBench上的幻觉评测中，MiniCPM-V 2.6的幻觉率优于GPT-4o、GPT-4V、Claude 3.5 Sonnet等商用模型。

MiniCPM-V 2.6的推出，标志着端侧多模态模型在实时视频理解、多图联合理解等方面取得了重要突破。它通过统一高清视觉架构，实现了单图、多图、视频理解等核心能力的全面对标。在OCR信息提取的基础上，MiniCPM-V 2.6还能对表格信息进行复杂推理，如计算2008年奥运会金牌数最多的3个国家的总金牌数。

面壁智能的RLAIF-V高效对齐技术和Ultra对齐技术，为MiniCPM-V 2.6的低幻觉率和多模态复杂推理能力提供了支持。通过CoT解答数据构造高效对齐种子数据，实现数据净化和知识学习，提升了模型的多图联合理解能力。

总之，MiniCPM-V 2.6的发布，为端侧多模态模型的发展带来了新的机遇。它在实时视频理解、多图联合理解、OCR性能等方面的突破，将为智能手机、PC、AR、机器人、智能座驾等端侧设备提供更加智能、高效的多模态输入能力，推动端侧AI技术的进一步发展。