来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

 

文章摘要


【关 键 词】 机器学习大模型分布式训练技术突破融合学习

文章介绍了中国电子学会2023科学技术奖授予腾讯Angel机器学习平台的情况。随着大模型的快速发展,机器学习平台在构建人工智能技术中的重要性得到了认可。各大公司如谷歌、微软、英伟达都拥有自己的机器学习平台,为快速训练人工智能模型提供支持。2023年,大模型的兴起进一步提升了模型参数量,各大公司推出参数规模达千亿、万亿大小的模型,但存在着模型分布式训练难和应用复杂性的挑战。

腾讯Angel机器学习平台获奖的原因在于其四大核心技术突破。该平台采用了分布式参数服务器架构,支持更大、计算需求更高的模型。在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得了技术突破。腾讯Angel通过高效通信与缓存调度管理技术解决了TB级模型训练通讯开销大的问题,提高了分布式训练性能。同时,提出了显存主存统一视角存储管理机制,解决了参数存储难题,实现了模型存储容量的增加和训练性能的提升。此外,针对多模态数据处理和图模型训练,腾讯Angel提出了融合学习和图网络结构搜索技术,提高了广告召回率和模型训练性能。

腾讯Angel机器学习平台的发展历程展示了其在腾讯混元大模型扩展到万亿规模中的重要作用。Angel平台支持PS-Worker分布式训练,解决了异构网络下的通信问题,取得了性能提升。在大模型训练和推理方面,Angel平台提供了机器学习框架Angel PTM和Angel HCF,支持超大规模训练和推理服务部署,提高了训练效率和推理速度。腾讯Angel还提供了一站式平台,支持用户快速调用腾讯混元大模型能力,加速大模型应用构建。腾讯Angel的技术创新和应用落地为腾讯广告等产品提供了支持,提升了广告召回率和模型规模,助力各行业的数字化和智能化发展。

原文和模型


【原文链接】 阅读原文 [ 1946字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...