“不用高级GPU”!蚂蚁用国产AI芯片狂降百万训练成本,模型性能还与DeepSeek相当

AIGC动态2天前发布 ai-front
115 0 0
“不用高级GPU”!蚂蚁用国产AI芯片狂降百万训练成本,模型性能还与DeepSeek相当

 

文章摘要


【关 键 词】 人工智能芯片模型优化成本

蚂蚁集团在人工智能领域取得了显著进展,通过使用国产芯片优化技术,成功降低了人工智能模型的训练成本。具体而言,蚂蚁集团在训练“专家混合”(MoE)模型时,采用了多种优化方法,使得计算成本从635万元人民币/万亿Token降至508万元人民币,同时模型性能与Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat等先进模型相当。这一突破不仅展示了中国在人工智能领域的快速发展,也表明国产芯片在高端计算任务中的潜力。

蚂蚁集团的优化策略主要集中在模型架构、训练框架和存储三个方面。在模型架构优化中,他们选择了与可用计算资源最匹配的架构,以提高效率。训练框架优化方面,蚂蚁整合了多个训练框架,开发了轻量级调试工具XPUTimer和异步训练策略EDiT,显著减少了内存使用和训练时间。存储优化则通过设备多租户和用户空间文件系统(FUSE)等技术,提高了大规模训练的I/O效率,将时间开销减少了50%。

此外,蚂蚁还开发了一套稳健的异常处理机制,包括多层次异常检测系统和自动恢复机制,以应对大规模训练中的硬件错误和损耗异常。为了提高模型评估效率,他们构建了特定领域的评估数据集,并开发了可扩展的跨集群评估系统和自动分析系统,确保评估结果的稳定性和实时反馈。这些优化措施不仅提高了训练效率,还增强了模型在实际应用中的适应性和稳定性。

蚂蚁集团开发的Ling系列MoE模型是这些技术优化的成功示例。Ling-Lite和Ling-Plus模型在参数规模和性能上均表现出色,尤其是在英语理解、数学和代码基准测试中,与Qwen2.5和DeepSeek等前沿模型相当甚至更优。Ling-Plus模型在GPQA数据集上的得分高于DeepSeek-V2.5,显示出其在复杂任务中的强大能力。尽管Ling-Plus在某些方面略逊于DeepSeek V3,但其在成本控制和性能平衡上的表现仍然令人瞩目。

然而,蚂蚁集团也强调了在训练过程中遇到的挑战,特别是硬件和网络结构的微小差异对模型稳定性和收敛性的影响。通过尖峰缓解技术和平衡损失策略,蚂蚁成功实现了包含数千亿参数的MoE模型的稳定训练,避免了损失发散和专家负载不平衡等问题。此外,跨平台迁移训练中的对齐策略也至关重要,蚂蚁通过大量预备实验和框架层面的对齐工作,确保了模型在不同平台上的稳定性和一致性。

总体而言,蚂蚁集团的这一系列技术突破不仅降低了人工智能模型的训练成本,还展示了国产芯片在高性能计算任务中的潜力。如果这些国产芯片能够广泛应用,可能会对英伟达等国际芯片厂商的市场地位产生一定影响。尽管英伟达的芯片目前仍然占据主导地位,但蚂蚁集团的成果无疑为人工智能领域的技术发展提供了新的方向和可能性。

原文和模型


【原文链接】 阅读原文 [ 2992字 | 12分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...