标签:大模型训练

DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

DeepSeek V3/R1等大模型在开源社区广泛应用的背景下,如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...

DeepSeek并非完美,训练过程存在“深度诅咒”

近年来,高性能大模型的训练面临深层网络效率低下的难题。研究表明,以DeepSeek、Qwen、Llama和Mistral为代表的模型在训练过程中,深层网络对整体性能的贡献...

DeepSeek用的GRPO占用大量内存?有人给出了些破解方法

群组相对策略优化(GRPO)作为一种在线学习算法,通过使用训练过程中由模型自身生成的数据进行迭代改进,已因其高效性和易用性成为大型语言模型强化学习中的...

大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当

微软研究院最近推出了首个FP4精度的大模型训练框架,这一技术能够在保持与FP8和BF16相当的训练效果的同时,显著减少所需的存储和计算资源。该框架支持高达130...

火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型

火山引擎在视频云技术大会上推出了大模型训练视频预处理方案,旨在解决视频大模型训练中的成本、质量和性能挑战。该方案通过统一视频数据格式、提升数据质量...

Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效

随着大模型迭代速度的加快和训练集群规模的增大,软硬件故障已成为提高训练效率的瓶颈。为此,字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint,...

从AI高管到犀利CEO,贾扬清创业这一年:我们的目标是做AI时代的“第一朵云”

贾扬清认为,AI的发展推动了高性能计算、异构计算和云原生软件的结合,他希望Lepton AI能成为AI Cloud领域的领导者。Lepton AI专注于提供大模型训练、部署和...

星环科技孙元浩:语料已经是大模型最大的挑战

星环科技创始人及CEO孙元浩认为,当前大模型训练并未将人类互联网数据穷尽,各行各业企业内部的数据还未被充分利用。高质量的数据可以显著提高大模型的准确性...

OpenAI泄密者,投奔马斯克

Pavel Izmailov(小P),曾是OpenAI超级对齐团队成员,因涉嫌泄露机密被开除。不久后,他迅速加入了马斯克旗下的xAI。这一事件引起了社交媒体上的热议,有人...