标签:分布式训练
谷歌重磅推出全新Scaling Law,抢救Transformer!3万亿美元AI面临岔路
谷歌团队近期宣布了一项重大突破,提出了一种全新的分布式训练方法——DiLoCo(Distributed Low-Communication),并验证了其在大型语言模型(LLM)训练中的显...
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码
总结来说,需要确认标签是否符合字数限制,并且摘要是否全面且符合格式要求。如果有错误,需要进行修正。
一文看懂DeepSeek开源第四弹,梁文锋亲自下场开发
DeepSeek在OpenSourceWeek期间开源了DualPipe和EPLB两项关键技术,为解决大模型训练中存在的资源浪费与效率瓶颈提供了创新方案。DualPipe通过双向并行处理机...
算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了
最近,一项名为“noise_step”的新技术由Will小哥提出,该技术允许模型在1.58-bit低精度下直接训练,无需反向传播或动量加速,从而大幅降低算力和存储消耗。这...
¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂机变现
潞晨云在2024年11月4日至11月18日期间推出了一系列双十一大促活动,旨在为AI开发者、初学者、业务人员以及算力出租者提供优惠和便利。活动期间,A800算力价格...
MLPerf 存储基准测试发布:焱融存储斩获多项世界第一
2023年9月25日,MLCommons®发布了MLPerf® v1.0存储性能基准测试结果,其中焱融科技的全闪存储产品在AI深度学习模型的评估中表现突出。焱融科技与多家国际知名...
来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题
文章介绍了中国电子学会2023科学技术奖授予腾讯Angel机器学习平台的情况。随着大模型的快速发展,机器学习平台在构建人工智能技术中的重要性得到了认可。各大...
一个令人惊艳的 AI 开源神器,诞生了!
在过去一年里,各大科技公司纷纷推出自己的大型语言模型,以在即将到来的AI时代占据一席之地。然而,在这个过程中,算力消耗成为了一个亟待解决的问题。据统...