标签:s1K

16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

提升大模型推理性能通常依赖于大量数据和算力,但李飞飞团队提出了一种新方法,仅使用1000个样本进行微调,并引入预算强制技术(budget forcing),在测试时...