标签：蒸馏

纯蒸馏模型 SOTA 出现！直接 SFT 成本直降 50 倍，数据已全部开源

a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文，探讨了在推理模型训练中蒸馏数据源的重要...

AIGC动态

4个月前

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

近年来，大语言模型在推理能力方面取得了显著进展，尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习（RLVR）被认为是提升模型推理能力的关键技...

AIGC动态

4个月前