纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源

文章摘要
a-m-team 最近发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的论文,探讨了在推理模型训练中蒸馏数据源的重要性。研究发现,基于 AM-Thinking-v1 的纯蒸馏(仅使用 SFT)训练出的学生模型,在多个高难度推理任务上接近甚至达到了当前最优水平(SOTA),超越了 Qwen3-32B,并接近了 Qwen3-235B 这样大规模模型的表现。这一发现表明,通过蒸馏技术,可以在显著降低训练成本的同时,获得强大的推理能力,这对于开源社区和企业级应用具有重要意义。
论文指出,蒸馏作为一种低成本、高效率的训练方式,已被广泛用于模型压缩与能力迁移。然而,蒸馏数据源的选择对模型性能有着决定性影响。a-m-team 开源了一套基于 AM-Thinking-v1 和 Qwen3-235B-A22B 生成的推理蒸馏数据集,通过对 189 万条高质量推理任务的对比分析,发现 AM-Thinking-v1 蒸馏出的学生模型在多个任务上表现优异。这一数据集为低成本构建强推理能力模型提供了扎实的支撑。
研究还发现,AM-Thinking-v1 的数据结构具有显著优势。首先,其 token 长度分布更加多样,既能生成简洁的短序列回复,也能输出复杂的推理链,这种“长短结合”的分布为模型的自适应能力提供了数据支撑。其次,AM 模型数据源的困惑度更低,数据质量更高,平均 Perplexity (PPL) 数值为 2.5,低于 Qwen3.0 和 DeepSeek R1 的 2.9,表明其在语言流畅性和连贯性方面更优。这些优势使得 AM 蒸馏模型在生成行为上更符合“人类推理模式”,在较难任务中自动生成长推理过程,而在简单任务中保持简明。
a-m-team 宣布开源了其蒸馏数据,包括 AM-Thinking-v1 Distilled Dataset 和 Qwen3-235B-A22B Distilled Dataset。每条数据都包含标准化 prompt、符合验证标准的推理链、精准的任务分类以及验证分数。研究者希望,这份数据集不仅能够助力社区低成本达成强推理能力,还能为后续 RLHF、CoT 微调、可控生成等高级能力构建提供基础。
论文的标题“Not All Correct Answers Are Equal”一语双关,强调了不同模型生成的正确答案背后的数据源质量和结构差异对后续训练的显著影响。研究认为,蒸馏数据的选择不再是技术细节,而是决定性能上限的关键因素。优质的蒸馏数据源未来或许将直接影响训练效率和性能上限。
这一研究为开源大模型的发展提供了新的视角,尤其是在评分差异与用户感知逐渐脱节的背景下,蒸馏背后体现的数据结构或许会成为衡量模型领先性的全新标准。a-m-team 的研究表明,尽管大模型领域的技术突破看似放缓,但仍有团队在默默创新,为行业带来新的贡献。
原文和模型
【原文链接】 阅读原文 [ 1716字 | 7分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆