训练效率 | 学习AIGC

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，基于人类偏好的强化学习（RLHF）成为大语言模型（LLM）后训练阶段的关键技术，显著提升了模型的对齐能力，并拓展了其在推理增强、智能体交互等场景...

AI-Agent

1个月前

DeepSeek-R1的成功依赖于一种名为GRPO（组相对策略优化）的强化学习算法。与PPO（近端策略优化）不同，GRPO直接根据组分数估计基线，从而消除了对critic模型...

AIGC动态

4个月前

DeepSeek-R1模型的核心强化学习算法GRPO通过分组分数替代价值模型，显著降低了训练资源消耗。然而，阶跃星辰与清华大学的最新研究表明，采用带GAE（λ=1，γ=1...

AIGC动态

6个月前

DeepSeek V3是一款参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。该模型以其低成本和开源特性受到关注，其训练细节在53页的论文中被详...

AIGC动态

7个月前

字节跳动豆包大模型团队与香港大学联合提出了一个名为HybridFlow（开源项目名：veRL）的灵活且高效的强化学习（RL）/RLHF框架。该框架采用混合编程模型，结合...

AIGC动态

9个月前

纽约大学谢赛宁团队的最新研究强调了在视觉领域生成模型中表征学习的重要性。该团队通过引入一种新的正则化方法REPA（REPresentation Alignment），显著提升...

AIGC动态

10个月前

纽约大学的研究者谢赛宁及其团队提出了一种名为REPresentation Alignment（REPA）的表征对齐技术，旨在简化训练扩散Transformer的过程。该技术通过将预训练自...

AIGC动态

10个月前

新智元报道了Meta、南加州大学（USC）、CMU和UCSD联合提出的革命性新架构Megalodon，旨在处理无限上下文，并在2万亿token训练任务中超越了Llama2-7B，展现出...

AIGC动态

1年前 (2024)