
文章摘要
蚂蚁团队近期开源了两个MoE模型——Ling-Lite和Ling-Plus,并发布了技术论文《Every Flop Counts》。Ling-Lite拥有168亿参数,激活了27.5亿参数;Ling-Plus则拥有2900亿参数,激活了288亿参数。蚂蚁团队的研究重点在于通过优化模型架构和训练过程,降低预训练成本,尤其是在使用国产硬件的情况下,成本比使用NV硬件低20%。然而,外媒报道中关于Ling-Plus预训练成本的误读引发了争议,蚂蚁团队随后澄清,其成本优化是基于训练1T token的前提,与DeepSeek V3的14.8T token训练量并不直接可比。
蚂蚁团队在技术解读中强调,Ling-Plus的成本优化主要反映了AI基础设施的工程能力,尤其是在国产硬件上的持续运作和容错机制。团队通过优化组织和加入容错机制,实现了更低的工程成本。此外,团队还分享了在国产加速卡上训练300B MoE模型的挑战和解决方案,包括跨平台训练的一整套解决方案和MoE的scaling law分析。这些经验对其他团队在国产硬件上的训练具有借鉴意义。
在成本比较方面,蚂蚁团队指出,DeepSeek V3在Hopper架构GPU上的优化非常极致,整体训练成本比Ling更低。然而,Ling的优化重点在于非Hopper架构GPU上的训练,确保正确性的同时降低成本。团队还提到,技术报告中的成本仅为参考价格和单次训练,前期的技术预研投入并未包含在内。
关于国产硬件与NV硬件的性能差距,蚂蚁团队表示,虽然国产算力在TFLOPS上不如NVIDIA最高端芯片,但通过软件优化和训练监测框架等技术努力,最终实现了loss的接近对齐。团队在算子、框架对齐等方面付出了大量努力,确保了训练的稳定性。此外,团队还尝试了不同厂家的加速卡,体验到了国产加速卡的进步。
在未来的规划中,蚂蚁团队将继续在基座模型、推理模型和多模态大模型上投入,并计划开源基于Ling-Lite蒸馏训练的长推理模型。团队还表示,更大尺寸的模型在国产卡上也是可以训练的,未来将分享更高效的模型架构和更低成本的训练方法。这些成果的开放和经验的积累,将对国产硬件生态的成熟起到重要推动作用。
原文和模型
【原文链接】 阅读原文 [ 2776字 | 12分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★