标签：预算强制

成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

通过蒸馏技术，研究团队成功训练出一个性能可媲美DeepSeek-R1和OpenAI o1的推理模型s1，其成本不到150元人民币。这一成果由李飞飞、斯坦福大学、华盛顿大学及...

AIGC动态

5个月前

16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

提升大模型推理性能通常依赖于大量数据和算力，但李飞飞团队提出了一种新方法，仅使用1000个样本进行微调，并引入预算强制技术（budget forcing），在测试时...

AIGC动态

5个月前