大模型训练 | 学习AIGC

微软、哈佛开源创新优化器：全面超越Muon，提升大模型训练效率

大模型训练所需计算资源随功能增强呈爆炸式增长，优化器可节省训练资源。此前的Muon优化器虽有优势，但在大规模训练中应用效率低。为此，微软和哈佛大学研究...

AIGC动态

3周前

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

训练大型模型在机器人领域面临的核心挑战在于获取真实世界交互数据的成本极高。视觉-语言-动作模型（VLA）需要大量机器人执行任务的真实数据，这类数据的采集...

AIGC动态

2个月前

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

DeepSeek V3/R1等大模型在开源社区广泛应用的背景下，如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...

AIGC动态

7个月前

DeepSeek并非完美，训练过程存在“深度诅咒”

近年来，高性能大模型的训练面临深层网络效率低下的难题。研究表明，以DeepSeek、Qwen、Llama和Mistral为代表的模型在训练过程中，深层网络对整体性能的贡献...

AIGC动态

7个月前

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

群组相对策略优化（GRPO）作为一种在线学习算法，通过使用训练过程中由模型自身生成的数据进行迭代改进，已因其高效性和易用性成为大型语言模型强化学习中的...

AIGC动态

7个月前

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

微软研究院最近推出了首个FP4精度的大模型训练框架，这一技术能够在保持与FP8和BF16相当的训练效果的同时，显著减少所需的存储和计算资源。该框架支持高达130...

AIGC动态

8个月前

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

火山引擎在视频云技术大会上推出了大模型训练视频预处理方案，旨在解决视频大模型训练中的成本、质量和性能挑战。该方案通过统一视频数据格式、提升数据质量...

AIGC动态

11个月前

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

随着大模型迭代速度的加快和训练集群规模的增大，软硬件故障已成为提高训练效率的瓶颈。为此，字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint，...

AIGC动态

1年前 (2024)

从AI高管到犀利CEO，贾扬清创业这一年：我们的目标是做AI时代的“第一朵云”

贾扬清认为，AI的发展推动了高性能计算、异构计算和云原生软件的结合，他希望Lepton AI能成为AI Cloud领域的领导者。Lepton AI专注于提供大模型训练、部署和...

AIGC动态

1年前 (2024)

星环科技孙元浩：语料已经是大模型最大的挑战

星环科技创始人及CEO孙元浩认为，当前大模型训练并未将人类互联网数据穷尽，各行各业企业内部的数据还未被充分利用。高质量的数据可以显著提高大模型的准确性...

AIGC动态

1年前 (2024)

标签：大模型训练

微软、哈佛开源创新优化器：全面超越Muon，提升大模型训练效率

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

DeepSeek V3+R1满血微调工具上线！一键启动，硬件要求降10倍

DeepSeek并非完美，训练过程存在“深度诅咒”

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

火山引擎发布大模型训练视频预处理方案，已应用于豆包视频生成模型

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

从AI高管到犀利CEO，贾扬清创业这一年：我们的目标是做AI时代的“第一朵云”

星环科技孙元浩：语料已经是大模型最大的挑战

热门网址

标签：大模型训练

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址