纯国产万卡集群炼出万亿参数大模型,被这家央企率先做到了!

AIGC动态3个月前发布 QbitAI
587 0 0
纯国产万卡集群炼出万亿参数大模型,被这家央企率先做到了!

 

文章摘要


【关 键 词】 人工智能大模型深度学习云平台技术创新

中国电信人工智能研究院(TeleAI)成功训练出首个万亿参数大模型,标志着国产人工智能领域的一项重大突破。该模型由TeleAI团队在李学龙教授的带领下完成,使用了天翼云上海临港国产万卡算力池的万卡集群进行训练,并基于天翼云自研的“息壤一体化智算服务平台”和电信人工智能公司自研的“星海AI平台”。这一成就不仅展现了集群训练的高稳定性,还通过开源的星辰语义大模型TeleChat2-115B,证明了国产深度学习框架的能力。

TeleChat2-115B在C-Eval评测中以86.9分的成绩位居榜首,展现了其在长文本写作、超长会议纪要实时生成以及大型电子报表处理等方面的卓越性能。这些应用场景中,模型能够实现高质量的文本生成和数据处理。

实现这一里程碑的关键在于提升万卡集群的性能和稳定性。TeleAI采用了多维混合并行技术,通过数据并行、模型并行和流水线并行的自动混合使用,以及多副本并行、通信优化、DryRun仿真和灵活重计算配置等关键技术,显著提升了训练性能。此外,通过训练集群断点续训、集群监控和多级存储优化等方法,实现了集群的高稳定性。

在训练万亿参数大模型方面,TeleAI通过小模型训练探索尺度定律,采用正激励噪声技术强化噪声管理,并实施了“四步走”策略,包括模型构建优化、基础训练数据构建、SFT专项优化和偏好对齐。这些策略涉及位置编码、激活函数、层标准化、词嵌入层与输出层参数解耦、GQA应用、数据清洗、数据混合、数据合成、低质量过滤、高质量构建、效果选择和基于知识图谱降低语义大模型事实类幻觉等多个方面。

TeleAI的成功并非偶然,而是源于长期的技术积累和人才投入。TeleAI发布了多个行业大模型,并推出了“星辰MaaS生态服务平台”。团队由来自国内外顶尖高校的近800人组成,平均年龄31.79岁,其中包括李学龙教授等AI领域的领军人物。此外,中国电信在量子通信、新一代信息通信技术等领域的投入,也为其在前沿技术领域的发展奠定了基础。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3415字 | 14分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...