文章摘要
【关 键 词】 模态、长文本、MoE、参数减少、AI Agent
文章介绍了面壁智能发布了四个特性鲜明的模型,并宣布了数亿元的新融资。这次融资由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。这是其成立后最大的一笔融资。文章详细介绍了这四个模型的特点和性能表现。
首先,MiniCPM-V 2.0是一个多模态模型,规模只有2.8B左右,但在主流评测中表现出色,超越了其他大模型。特别强调了其幻觉概率很低,OCR能力也很强,支持各种尺寸图片的识别和理解。
其次,长文本模型MiniCPM-2B-128K实现了128K长文本能力,在各项评测中表现优异,成为7B以下模型中表现最好的一个。
第三,MOE版本MiniCPM-MoE-8x2B MoE引入了MoE架构,性能有所提升,同时节省了训练成本。
最后,MiniCPM-1.2B参数减少了一半,但仍保持了87%的综合性能,在多个测试中表现出色,支持更广泛的应用场景。
文章指出,面壁智能并不满足于只做一个“中国Mistral”,而是追求高效大模型的公司,有着自己独特的技术判断和产品路线。公司在模型训练实验科学化、基础设施自研、算法层面的探索等方面有着独特的方法论,强调高效训练和性价比。除了基础模型,公司还专注于AI Agent的研究,推出了AI Agent的SaaS化产品ChatDev,探索在金融、教育、政务等领域的商业应用。
面壁智能选择了一条少有人走的路,从对标Mistral到超越Mistral,公司已经有了足够的底气继续前行。文章最后指出,在大模型行业,仅靠单一维度的提升会出现瓶颈,而面壁智能通过实验科学的方式做基础模型研究,强调高效,追求一种“性价比”,在相同资源下获得更高的收益。期待面壁智能继续推出更优秀的模型产品。
原文和模型
【原文链接】 阅读原文 [ 1930字 | 8分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆