让「GPT-4V」跑在手机上，这家中国大模型公司做到了

AI-Agent1年前 (2024)发布 aitechtalk

2,589 0 0

文章摘要

面壁公司最新发布的MiniCPM-V 2.6在端侧视频理解方面取得了重大突破，成功实现了与GPT-4V相媲美的性能。MiniCPM-V 2.6首次在端侧实现了单图、多图、视频理解等多模态核心能力的全面超越，三项能力均取得了20B参数以下的最佳成绩。在知识密度方面，得益于视觉token相比上一代下降30%，MiniCPM-2.6的单token编码像素密度是GPT-4o的两倍。

MiniCPM-V 2.6在端侧的内存占用仅为6GB，推理速度达到18 tokens/s，比上代模型快33%。此外，该模型还支持多种语言，并能够实时理解视频内容，提升了人机交互的自然度。在多图联合理解方面，MiniCPM-V 2.6能够识别并计算小票上的金额，解决了繁琐的总账计算问题。

在多模态推理能力方面，MiniCPM-V 2.6展现出了完成复杂任务的潜力，例如调整自行车车座。此外，该模型还能够理解梗图背后的故事，通过OCR识别和联合推理，揭示出图片中隐含的信息。

MiniCPM-V 2.6的多图ICL（上下文少样本学习）功能使其能够在无需fine-tune的情况下快速适配特定领域和任务，提高模型的输出稳定性。在多图联合理解方面，MiniCPM-V 2.6通过挖掘多图关联语义，实现了高效的数据构造。

在性能方面，MiniCPM-V 2.6在单图、多图和视频理解方面均达到了端侧最佳性能，超越了GPT-4V。在OCR性能方面，MiniCPM-V 2.6实现了开源和闭源模型的最佳性能。此外，该模型在幻觉评测方面也表现出色，幻觉率低于其他商用模型。

面壁公司认为，MiniCPM-V 2.6的优势得益于Qwen2-7B基座模型的性能加持以及统一高清视觉架构的应用。该架构实现了视觉token数量的大幅节省，提高了模型的运行效率。同时，面壁还通过Ultra系列对齐技术，增强了MiniCPM-V 2.6的复杂推理能力和通用域多图联合理解能力。

除了面壁公司，其他国内大模型团队也在多模态领域取得了显著进展。例如，上海人工智能实验室发布的书生·浦语灵笔（InternLM-XComposer）2.5版本，支持24K多模态图文上下文和超过20轮图文交互。联汇科技的第二代多模态智能体OmAgent在感知模块和思考决策能力方面进行了提升。商汤科技则发布了国内首个具备流式原生多模态交互能力的大模型“日日新SenseNova 5.5”，并在端侧模型“日日新 5.5 Lite”上实现了精度和推理效率的提升。

总的来说，MiniCPM-V 2.6的发布标志着端侧视频理解技术的重要突破，为多模态大模型在实际应用中的落地提供了有力支持。随着国内各大模型团队在多模态领域的持续创新，未来端侧视频理解技术有望在更多场景中发挥重要作用。