标签:样本效率

成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏

通过蒸馏技术,研究团队成功训练出一个性能可媲美DeepSeek-R1和OpenAI o1的推理模型s1,其成本不到150元人民币。这一成果由李飞飞、斯坦福大学、华盛顿大学及...

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

斯坦福大学在读博士Niklas Muennighoff领导的研究团队提出了一种名为s1的新方法,旨在改进AI的推理效率。s1方法通过仅使用1000个样本和简单的测试时间干预,...

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

阿尔伯塔大学等机构的研究者提出了一种名为stream-x的深度强化学习算法,旨在解决流式深度强化学习中的样本效率问题,即流式障碍。流式障碍是指流式深度强化...