标签:小模型优化

强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好

研究团队通过系统分析揭示了强化学习训练中数据质量与模型推理能力提升的内在关联。核心发现表明,训练样本的质量和相关性远比数量重要,这一结论对传统认知...