标签:元强化学习

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新进展表明,通过扩展测试时计算可以显著提升模型的推理能力。OpenAI的o1系列等模型展示了这一潜力,尤其是在生成长推理链时...

如何优化测试时计算?解决「元强化学习」问题

当前改进大型语言模型的主流方法依赖于增加高质量数据的监督微调或强化学习,但数据扩展面临瓶颈。研究预测,用于训练的高质量文本可能在2028年耗尽,而复杂...