标签:蒸馏

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...