标签：采样效率

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

近年来，大语言模型在推理能力方面取得了显著进展，尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习（RLVR）被认为是提升模型推理能力的关键技...

AIGC动态

4个月前

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

近年来，大型语言模型通过'下一个token预测'范式取得显著进展，但其对表层token的依赖限制了高级推理和长期任务处理能力。针对这一问题，Meta等机构的研究者...

AIGC动态

6个月前

大模型一定就比小模型好？谷歌的这项研究说不一定

Google Research的一个团队近期对隐扩散模型（LDM）进行了大量实验研究，发现在预算有限的情况下，更大的模型并不总是更好。他们的研究成果发表在论文《Bigge...

AIGC动态

1年前 (2024)