干翻 GPT-4V 的面壁 8B「小钢炮」,被Nature 收录了

文章摘要
清华大学与面壁智能团队在边缘设备上成功实现了多模态大模型的落地,推出了MiniCPM-V系列模型,该系列包括MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5。这些模型通过自适应视觉编码、渐进式多模态学习、对齐优化及边缘部署优化等技术,显著提升了多模态能力。MiniCPM-V仅用80亿参数就实现了GPT-4V级别的多模态能力,并在11个权威基准测试中全面超越GPT-4V、Gemini Pro和Claude 3等头部模型。这一突破不仅颠覆了人们对边缘计算的认知,还使得手机端也能运行媲美云端的多模态大模型。
MiniCPM-V的技术创新主要体现在其分层处理策略和训练方法上。通过将图像分割为多个切片,并采用ViT编码器和压缩层,显著降低了计算量与内存占用。在训练阶段,模型通过大规模图文对实现视觉模块与语言模型的空间对齐,并通过RLAIF-V方法优化偏好学习,有效降低了幻觉率。MiniCPM-V在边缘设备上的高效部署能力是其最大的亮点,通过4位量化、内存序贯加载、目标设备编译优化等技术,实现了在智能手机、PC等设备上的高效运行。
在11项公开基准测试中,MiniCPM-Llama3-V2.5展现出显著优势,不仅在OpenCompass评分中超越GPT-4V等专有模型,还在OCRBench、TextVQA等文本识别任务上优于Qwen-VL-Max等开源模型。MiniCPM-V的推理计算量显著更低,视觉token数量范围更小,使得其在推理速度、首token延迟、内存使用和功耗方面更适配实际设备应用。
尽管MiniCPM-V在性能上表现出色,但研究人员也指出其在多模态理解能力和推理效率方面仍有改进空间。MiniCPM-V的成功标志着多模态大模型从云端到端侧的全面转型,有望开启端侧AI的黄金时代。随着边缘计算能力的持续提升和模型效率的不断优化,AI普及化的下一个爆发点将出现在每个人的指尖之下、设备之中。边缘智能的时代正在加速到来。
原文和模型
【原文链接】 阅读原文 [ 2424字 | 10分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆