标签:训练效率

吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题

字节跳动豆包大模型团队与香港大学联合提出了一个名为HybridFlow(开源项目名:veRL)的灵活且高效的强化学习(RL)/RLHF框架。该框架采用混合编程模型,结合...

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

纽约大学谢赛宁团队的最新研究强调了在视觉领域生成模型中表征学习的重要性。该团队通过引入一种新的正则化方法REPA(REPresentation Alignment),显著提升...

扩散模型训练方法一直错了!谢赛宁:Representation matters

纽约大学的研究者谢赛宁及其团队提出了一种名为REPresentation Alignment(REPA)的表征对齐技术,旨在简化训练扩散Transformer的过程。该技术通过将预训练自...

革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2

新智元报道了Meta、南加州大学(USC)、CMU和UCSD联合提出的革命性新架构Megalodon,旨在处理无限上下文,并在2万亿token训练任务中超越了Llama2-7B,展现出...