标签:奖励模型

清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神

多机构联合研究发现,通过优化测试时计算扩展(TTS)策略,小型语言模型在复杂数学任务中展现出超越大型模型的潜力。0.5B参数的模型在MATH-500和AIME24基准测...