让「GPT-4V」跑在手机上,这家中国大模型公司做到了
文章摘要
【关 键 词】 视频理解、端侧AI、多模态、性能突破、技术创新
面壁公司最新发布的MiniCPM-V 2.6在端侧视频理解方面取得了重大突破,成功实现了与GPT-4V相媲美的性能。MiniCPM-V 2.6首次在端侧实现了单图、多图、视频理解等多模态核心能力的全面超越,三项能力均取得了20B参数以下的最佳成绩。在知识密度方面,得益于视觉token相比上一代下降30%,MiniCPM-2.6的单token编码像素密度是GPT-4o的两倍。
MiniCPM-V 2.6在端侧的内存占用仅为6GB,推理速度达到18 tokens/s,比上代模型快33%。此外,该模型还支持多种语言,并能够实时理解视频内容,提升了人机交互的自然度。在多图联合理解方面,MiniCPM-V 2.6能够识别并计算小票上的金额,解决了繁琐的总账计算问题。
在多模态推理能力方面,MiniCPM-V 2.6展现出了完成复杂任务的潜力,例如调整自行车车座。此外,该模型还能够理解梗图背后的故事,通过OCR识别和联合推理,揭示出图片中隐含的信息。
MiniCPM-V 2.6的多图ICL(上下文少样本学习)功能使其能够在无需fine-tune的情况下快速适配特定领域和任务,提高模型的输出稳定性。在多图联合理解方面,MiniCPM-V 2.6通过挖掘多图关联语义,实现了高效的数据构造。
在性能方面,MiniCPM-V 2.6在单图、多图和视频理解方面均达到了端侧最佳性能,超越了GPT-4V。在OCR性能方面,MiniCPM-V 2.6实现了开源和闭源模型的最佳性能。此外,该模型在幻觉评测方面也表现出色,幻觉率低于其他商用模型。
面壁公司认为,MiniCPM-V 2.6的优势得益于Qwen2-7B基座模型的性能加持以及统一高清视觉架构的应用。该架构实现了视觉token数量的大幅节省,提高了模型的运行效率。同时,面壁还通过Ultra系列对齐技术,增强了MiniCPM-V 2.6的复杂推理能力和通用域多图联合理解能力。
除了面壁公司,其他国内大模型团队也在多模态领域取得了显著进展。例如,上海人工智能实验室发布的书生·浦语灵笔(InternLM-XComposer)2.5版本,支持24K多模态图文上下文和超过20轮图文交互。联汇科技的第二代多模态智能体OmAgent在感知模块和思考决策能力方面进行了提升。商汤科技则发布了国内首个具备流式原生多模态交互能力的大模型“日日新SenseNova 5.5”,并在端侧模型“日日新 5.5 Lite”上实现了精度和推理效率的提升。
总的来说,MiniCPM-V 2.6的发布标志着端侧视频理解技术的重要突破,为多模态大模型在实际应用中的落地提供了有力支持。随着国内各大模型团队在多模态领域的持续创新,未来端侧视频理解技术有望在更多场景中发挥重要作用。
原文和模型
【原文链接】 阅读原文 [ 3239字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★