26岁带着百人团队冲刺大模型，面壁智能天才CTO：高效比参数更重要

AI-Agent1年前 (2024)发布 ai-front

2,263 0 0

文章摘要

本文是对《大模型领航者》访谈的详细总结，访谈由极客邦科技创始人兼CEO霍太稳主持，嘉宾为面壁智能CTO曾国洋。文章主要围绕面壁智能的发展历程、大模型技术的应用和挑战、以及公司未来的战略方向进行了深入探讨。

面壁智能成立于2021年，由清华大学计算机系副教授刘知远牵头，团队成员主要来自清华大学NLP实验室。曾国洋，作为公司的技术1号位，以其在编程和AI领域的成就而闻名。公司从最初的10人发展到现在超过100人的科研团队，平均年龄28岁，团队成员背景多样，包括来自清华、北大以及阿里、字节、百度等公司的人才。

曾国洋认为，AI是程序员的合作伙伴，可以帮助完成某些任务，让程序员专注于更具创造性和战略性的工作。随着公司规模的扩大，曾国洋的工作重心逐渐转向保证组织的有效协作。面壁智能在招聘时更看重候选人的学习意愿、对新技术的热情以及解决问题的能力，而不是大模型经验。

面壁智能没有严格的KPI管理，而是制定了一个大概的发展节奏和方向，鼓励团队成员自我设定目标。公司倾向于建立“小而美”的技术团队，强调团队的高效、灵活和创新状态。大模型团队的研发速度非常快，面壁智能已经从两周一次的内部迭代频率提升到接近一周一次。

曾国洋表示，面壁智能并不过分担忧落后于国际竞争对手，而是根据自己的实际情况和优势制定发展策略。公司在2023年发布了百亿参数的CPM-Bee大模型和千亿参数多模态模型CPM-Cricket，展示了其在大模型领域的技术实力。

面壁智能意识到，追求模型参数量并不是唯一的发展方向，更难的是如何突破模型的智能极限，以更低的成本实现更好的模型性能。公司推出了MiniCPM模型，探索大模型的高效应用，并将其完全开源，以推动行业发展。

曾国洋认为，端侧模型在手机上运行的潜力巨大，可以探索更多应用场景，如汽车、VR、智能家居等。端侧模型具有处理速度快、成本低、能在无网络连接的情况下运行等优势。面壁智能的MiniCPM模型就是基于公司千亿级模型研发路线延伸，实现高效、低成本的模型训练与应用。

面壁智能的战略不会因为市场上的其他产品而改变，公司致力于将技术融入到实际产品和解决方案中，解决实际问题。曾国洋强调，大模型技术在普通人生活中的应用和实际问题的解决是公司的核心目标。

文章还提到了面壁智能对开源模型的看法。公司认为开源模型在技术影响力建设方面非常重要，可以提升人才吸引力和市场信心。尽管开源模型面临追赶闭源模型的挑战，但在技术发展进入瓶颈期时，开源模型有机会迎头赶上甚至超越。

面壁智能在2023年完成了新一轮数亿元融资，由春华创投、华为哈勃领投，北京市人工智能产业投资基金等跟投，知乎作为战略股东持续跟投支持。公司目前已经能够通过提供服务和产品实现一定的收入。

面壁智能是国内最早探索Agent的大模型公司之一。公司认为Agent是介于纯大模型和通用人工智能（AGI）之间的中间状态，需要与外部系统和接口进行交互，拓展能力边界。对于大模型领域的应用，公司认为可能会百花齐放，但通用千亿大模型的数量有限。

曾国洋提出了一种大模型应用的分工模式，即简单、重复性任务由小型特定领域模型处理，复杂、需要高级认知能力的任务由大型通用模型完成。面壁智能的目标是实现通用人工智能，团队有一个清晰的路线图，包括在文本模态上要达到的效果、未来向多模态和具身智能的转变等规划。

文章最后提到，大模型技术正在简化和加速开发任务，技术人员不需要掌握大量的编程代码，更重要的是对最终产品的理解能力。面壁智能将继续专注于模型的研发和优化，以实现其AGI理想。