一个令人惊艳的 AI 开源神器，诞生了！

AIGC动态2年前 (2024)发布 admin

3,372 0 0

作者信息

【原文作者】 GitHubDaily
【作者简介】 专注于分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具，为 GitHub 开发者提供优质编程资讯。
【微信号】 GitHubDaily

文章摘要

【关键词】 科技公司、AI时代、AI基础设施、分布式训练、降本增效

在过去一年里，各大科技公司纷纷推出自己的大型语言模型，以在即将到来的AI时代占据一席之地。然而，在这个过程中，算力消耗成为了一个亟待解决的问题。据统计，AI算力在70年内增长了6.8亿倍。为了解决这个问题，蚂蚁集团AI创新研发部门NextEvo全面开源了一个名为DLRover的AI基础设施技术。

DLRover是一个大规模的分布式训练智能化技术框架，可以帮助大型模型在千卡训练中的有效时间占比超过95%，实现训练时的“自动驾驶”，从而大大降低AI研发成本并提高研发效率。此外，DLRover还集成了Flash Checkpoint（FCP）方案，可以有效减少Checkpoint导致的训练浪费时间，将有效训练时间从90%提升至95%。

同时，DLRover还集成了三项新的优化器技术，包括蚂蚁的AGD优化器。在大模型预训练任务中，AGD优化器相比传统的AdamW技术可以加速1.5倍。DLRover以“ML for System”的理念来提升分布式训练的智能度，旨在通过一个系统让开发者完全摆脱资源配置的束缚，专注于模型训练本身。

总的来说，随着各大厂新技术的推动，AI大模型研发流程将会愈加简便与高效，降本增效一词将在AI技术领域不断刷新人们的认知。