文章摘要
【关 键 词】 MoE模型、开源、AI角色、商业应用、技术创新
元象 XVERSE 于 9 月 13 日发布了中国最大的 MoE(Mixture of Experts)开源模型 XVERSE-MoE-A36B,该模型拥有 255B 的总参数和 36B 的激活参数,实现了与 100B 模型相媲美的性能,同时将训练时间缩短了 30%,推理性能提升了 100%,显著降低了每 token 的成本。这一高性能全家桶系列的开源,使得中小企业、研究者和开发者可以无条件免费商用,按需选择。
MoE 架构通过组合多个细分领域的专家模型,形成一个超级模型,突破了传统扩展定律的限制,能够在扩大模型规模的同时,不显著增加训练和推理的计算成本,保持模型性能的最大化。业界前沿模型如谷歌的 Gemini-1.5、OpenAI 的 GPT-4、马斯克旗下 xAI 公司的 Grok 等均采用了 MoE 架构。
元象基于 MoE 模型自主研发的 AI 角色扮演与互动网文 APP Saylo,在港台地区广受欢迎,下载量在中国台湾和香港娱乐榜分别位列第一和第三。MoE 训练范式的优势在于更高性能和更低成本,元象在通用预训练的基础上,使用海量剧本数据进行继续预训练,并采用大规模语料知识注入,提升了模型在特定应用领域的表现。
在商业应用方面,元象大模型是国内最早一批获得国家备案的大模型之一,已与 QQ 音乐、虎牙直播、全民 K 歌、腾讯云等进行了深度合作与应用探索,为多个领域提供了创新领先的用户体验。元象累计融资金额已超过 2 亿美元,投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和 CPE 源峰等。
在 MoE 技术自研与创新方面,元象在效率和效果上进行了多项探索。在效率方面,采用了 4D 拓扑设计、专家路由与预丢弃策略、通信与计算重叠等技术,优化了计算节点之间的通信路径,提高了整体计算效率。在效果方面,通过对比实验选择了合适的专家权重设置,并实现了数据动态切换和学习率调度策略的优化,提升了模型的泛化能力和学习速度。
通过这些设计与优化,元象 MoE 模型在训练时间、推理性能和模型效果上均优于其 Dense 模型 XVERSE-65B-2。此外,AICon 全球人工智能开发与应用大会·上海站成功举办,提供了大模型训练与推理机制、多模态融合、智能体Agent前沿进展等热点内容的深入剖析。QCon 会议则涵盖了 AI 应用开发、大模型基础设施与算力优化等多个方面,为参与者提供了全面的学习和交流机会。
原文和模型
【原文链接】 阅读原文 [ 1875字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆