实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

AIGC动态4个月前发布 ai-front
1,061 0 0
实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态

 

文章摘要


【关 键 词】 端侧模型多模态实时视频OCR性能AI技术

面壁智能于8月6日推出了MiniCPM-V 2.6模型,这是一款具有8B参数的端侧多模态模型,它首次集成了实时视频理解、多图联合理解等能力。MiniCPM-V 2.6以其小尺寸、高效低成本的特点,实现了单图、多图、视频理解等多模态核心能力,超越了GPT-4V。它在端侧模型中首次实现了实时视频理解、多图联合理解、多图ICL视觉类比学习、多图OCR等功能,提高了模型的观察和理解能力。

MiniCPM-V 2.6在单token编码像素密度方面取得了显著成果,是GPT-4o的两倍,视觉token数量相比上一代下降了30%,比同类模型低75%。端侧内存仅占6GB,推理速度高达18 tokens/s,比上代模型快33%。此外,该模型还支持多种语言,并在OCR性能上实现了开源和闭源模型的SOTA。

MiniCPM-V 2.6在单图、多图、视频理解方面均达到了SOTA水平。在OpenCompass平台上,其单图理解能力超越了Gemini 1.5 Pro和GPT-4o mini;在Mantis-Eval平台上,其多图联合理解能力实现了开源模型SOTA,并超越了GPT-4V;在Video-MME平台上,其视频理解能力达到了端侧SOTA,超越了GPT-4V。

此外,MiniCPM-V 2.6在OCRBench上的OCR性能也实现了开源+闭源模型SOTA,延续了小钢炮系列在端侧OCR能力上的优势。在Object HalBench上的幻觉评测中,MiniCPM-V 2.6的幻觉率优于GPT-4o、GPT-4V、Claude 3.5 Sonnet等商用模型。

MiniCPM-V 2.6的推出,标志着端侧多模态模型在实时视频理解、多图联合理解等方面取得了重要突破。它通过统一高清视觉架构,实现了单图、多图、视频理解等核心能力的全面对标。在OCR信息提取的基础上,MiniCPM-V 2.6还能对表格信息进行复杂推理,如计算2008年奥运会金牌数最多的3个国家的总金牌数。

面壁智能的RLAIF-V高效对齐技术和Ultra对齐技术,为MiniCPM-V 2.6的低幻觉率和多模态复杂推理能力提供了支持。通过CoT解答数据构造高效对齐种子数据,实现数据净化和知识学习,提升了模型的多图联合理解能力。

总之,MiniCPM-V 2.6的发布,为端侧多模态模型的发展带来了新的机遇。它在实时视频理解、多图联合理解、OCR性能等方面的突破,将为智能手机、PC、AR、机器人、智能座驾等端侧设备提供更加智能、高效的多模态输入能力,推动端侧AI技术的进一步发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3432字 | 14分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...