作者信息
【原文作者】 GitHubDaily
【作者简介】 专注于分享 GitHub 上知名的 Python、Java、Web、AI、数据分析等多个领域的优质学习资源、开源项目及开发者工具,为 GitHub 开发者提供优质编程资讯。
【微 信 号】 GitHubDaily
文章摘要
【关 键 词】 科技公司、AI时代、AI基础设施、分布式训练、降本增效
在过去一年里,各大科技公司纷纷推出自己的大型语言模型,以在即将到来的AI时代占据一席之地。然而,在这个过程中,算力消耗成为了一个亟待解决的问题。据统计,AI算力在70年内增长了6.8亿倍。为了解决这个问题,蚂蚁集团AI创新研发部门NextEvo全面开源了一个名为DLRover的AI基础设施技术。
DLRover是一个大规模的分布式训练智能化技术框架,可以帮助大型模型在千卡训练中的有效时间占比超过95%,实现训练时的“自动驾驶”,从而大大降低AI研发成本并提高研发效率。此外,DLRover还集成了Flash Checkpoint(FCP)方案,可以有效减少Checkpoint导致的训练浪费时间,将有效训练时间从90%提升至95%。
同时,DLRover还集成了三项新的优化器技术,包括蚂蚁的AGD优化器。在大模型预训练任务中,AGD优化器相比传统的AdamW技术可以加速1.5倍。DLRover以“ML for System”的理念来提升分布式训练的智能度,旨在通过一个系统让开发者完全摆脱资源配置的束缚,专注于模型训练本身。
总的来说,随着各大厂新技术的推动,AI大模型研发流程将会愈加简便与高效,降本增效一词将在AI技术领域不断刷新人们的认知。
原文信息
【原文链接】 阅读原文
【原文字数】 1250
【阅读时长】 5分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...