搞AI的是真没钱了

AIGC动态1年前 (2024)发布 admin

2,248 0 0

文章摘要

近日，一个由MIT、普林斯顿等研究机构的华人团队发布了自己的大模型JetMoE，声称仅需10万美元的成本就能训练出与数十亿美元成本的LLaMA2级别相媲美的大模型。这一成就得到了业界的广泛关注，包括贾扬清在内的多位专家对其采用的MoE（混合专家）架构表示赞赏。

MoE架构之前并未受到广泛关注，但随着AI领域的成本问题日益凸显，这种架构逐渐成为降低运营成本、提升训练效率的关键技术。Stability AI的高运营成本曝光后，业界开始意识到大模型的高成本问题不仅是中国AI圈的困境，而是全球性的挑战。MoE架构因此受到了全球大模型公司的重视。

MoE架构通过将神经网络分解为多个专家子网络，提高了模型的可扩展性和推理成本效率。然而，MoE架构的训练难度较大，尤其是在保证每个“专家”得到充分训练方面存在挑战。门控网络的设计至关重要，以避免某些“专家”被过度选择而导致其他“专家”训练不足，以及负载不平衡问题。

尽管存在挑战，但国内关于MoE架构的产品进展令人乐观。MiniMax作为国内首个发力MoE架构的公司，已经拥有了金山办公、小红书等大客户，并且在融资方面也取得了进展，阿里巴巴和红杉资本等头部资本对MoE技术路线表示认可。此外，APUS（麒麟合盛）也宣布将开源其MoE大模型，进一步证明了MoE架构的商业价值。

与此同时，一些公司选择不采用MoE架构，而是开发小尺寸模型以降低成本。面壁智能发布的Minicam模型就是一个例子，该公司追求更合理的训练方法，而不是简单地增加模型参数量。面壁智能的CEO李大海强调，成本是大模型的隐形竞争力，他们的小模型可以在端侧部署，并支持CPU推理，量化版本可以实现75%的压缩而性能基本无损。

AI PC和AI手机的兴起为小模型的发展提供了新的机遇，虽然目前这些产品中AI的应用仍然有限，但它们已经吸引了包括高通、英特尔等在内的多家公司的关注。这表明，无论是采用MoE架构还是开发小模型，AI领域的技术发展和商业故事都将继续演进，直至下一个技术突破——GPT-5的发布。