文章摘要
【关 键 词】 AI大模型、MoE架构、成本降低、技术发展、市场趋势
近日,一个由MIT、普林斯顿等研究机构的华人团队发布了自己的大模型JetMoE,声称仅需10万美元的成本就能训练出与数十亿美元成本的LLaMA2级别相媲美的大模型。这一成就得到了业界的广泛关注,包括贾扬清在内的多位专家对其采用的MoE(混合专家)架构表示赞赏。
MoE架构之前并未受到广泛关注,但随着AI领域的成本问题日益凸显,这种架构逐渐成为降低运营成本、提升训练效率的关键技术。Stability AI的高运营成本曝光后,业界开始意识到大模型的高成本问题不仅是中国AI圈的困境,而是全球性的挑战。MoE架构因此受到了全球大模型公司的重视。
MoE架构通过将神经网络分解为多个专家子网络,提高了模型的可扩展性和推理成本效率。然而,MoE架构的训练难度较大,尤其是在保证每个“专家”得到充分训练方面存在挑战。门控网络的设计至关重要,以避免某些“专家”被过度选择而导致其他“专家”训练不足,以及负载不平衡问题。
尽管存在挑战,但国内关于MoE架构的产品进展令人乐观。MiniMax作为国内首个发力MoE架构的公司,已经拥有了金山办公、小红书等大客户,并且在融资方面也取得了进展,阿里巴巴和红杉资本等头部资本对MoE技术路线表示认可。此外,APUS(麒麟合盛)也宣布将开源其MoE大模型,进一步证明了MoE架构的商业价值。
与此同时,一些公司选择不采用MoE架构,而是开发小尺寸模型以降低成本。面壁智能发布的Minicam模型就是一个例子,该公司追求更合理的训练方法,而不是简单地增加模型参数量。面壁智能的CEO李大海强调,成本是大模型的隐形竞争力,他们的小模型可以在端侧部署,并支持CPU推理,量化版本可以实现75%的压缩而性能基本无损。
AI PC和AI手机的兴起为小模型的发展提供了新的机遇,虽然目前这些产品中AI的应用仍然有限,但它们已经吸引了包括高通、英特尔等在内的多家公司的关注。这表明,无论是采用MoE架构还是开发小模型,AI领域的技术发展和商业故事都将继续演进,直至下一个技术突破——GPT-5的发布。
原文和模型
【原文链接】 阅读原文 [ 1809字 | 8分钟 ]
【原文作者】 虎嗅APP
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆