标签：测试计算

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

大语言模型（LLM）在推理领域的最新进展表明，通过扩展测试时计算可以显著提升模型的推理能力。OpenAI的o1系列等模型展示了这一潜力，尤其是在生成长推理链时...

AIGC动态

3个月前