中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

AIGC动态1年前 (2024)发布 almosthuman2014

1,814 0 0

文章摘要

面壁智能，一家源自清华大学的创业公司，近期在大语言模型领域取得了显著进展。该公司致力于优化语言模型，以提高效率并降低成本。今年2月，面壁智能发布了第一代MiniCPM，一款端侧大模型，其性能超越了多个业内标杆，包括Google的Gemma 2B和LLaMa2-13B等。仅70天后，该公司推出了MiniCPM的第二代产品，具备多模态、长文本和MoE（混合专家模型）等领域的迭代能力。

新一代MiniCPM系列模型包括四个版本：MiniCPM-V 2.0、MiniCPM-1.2B、MiniCPM-2B-128K和MiniCPM-MoE-8x2B。MiniCPM-V 2.0是一款多模态模型，参数规模为2.8B，但其性能超越了参数更大的竞品模型。在OpenCompass榜单中，MiniCPM-V 2.0的通用多模态能力超越了其他主流模型。此外，该模型在OCR能力上表现出色，能够精准识别图片中的物体和文字符号，包括古文字。

MiniCPM-1.2B是一款更小型的模型，参数减少了一半，但仍保留了87%的综合性能。在多个公开权威评测榜单上，MiniCPM-1.2B的性能超越了其他更大体量的模型。该模型的内存用量比前一代减少了51.9%，成本下降了60%，更适合在端侧设备上部署和运行。

MiniCPM-2B-128K是一款支持128K上下文窗口的长文本模型，其性能超越了其他6B、7B量级模型。MiniCPM-MoE-8x2B模型则采用了MoE架构，性能提升了4.5个百分点，训练成本降低。

面壁智能的技术实力得益于其在多模态、长文本和MoE架构方面的创新。例如，MiniCPM-V 2.0采用了LLaVA-UHD技术，能够处理高清大图和任意宽高比的图片。此外，该公司还开发了跨语言多模态泛化技术，使模型能够处理不同语言的数据。

面壁智能的研究成果不仅在技术上取得了突破，还对大模型的发展方向提供了新的思考。该公司遵循的Scaling Law表明，在增加模型体量、数据集大小和训练算力的同时，语言建模的性能会提高。然而，面壁智能认为，提升模型效果并不一定需要扩大参数量规模和增加算力成本。相反，让每个参数发挥最大作用，实现更高的性能，才是解决大模型效率问题的核心。

面壁智能的科研团队由100余人组成，80%来自清华北大，平均年龄28岁。该公司已经完成了新一轮数亿元人民币的融资，将用于推动大模型的高效训练和应用落地。通过MiniCPM系列模型等工作，面壁智能为实现AGI的通用基座大模型奠定了基础。