微软发布Phi-4，最强小模型！参数极小、超GPT-4o

2,215 0 0

文章摘要

【关键词】 Phi-4模型、AI算力、高质量数据、合成训练数据、长上下文理解

微软研究院推出的Phi-4模型以其140亿参数的小规模在多个基准测试中超越了参数量更大的模型。在GPQA和MATH基准测试中，Phi-4分别取得了56.1和80.4的高分，超越了GPT-4o和开源模型Qwen 2.5 -14B、Llama-3.3-70B。在AMC数学竞赛测试中，Phi-4更是以91.8分的成绩超越了多个知名模型，甚至能与参数量高达4050亿的Llama-3.1相媲美。这表明，通过高质量数据和创新训练方法，小参数模型也能在性能上战胜大参数模型，同时在部署、应用和推理方面减少对AI算力和环境的要求。

Phi-4的成功部分归功于其使用的高质量合成训练数据。与传统依赖网络抓取或公开数据库获取的真实世界文本不同，Phi-4采用了种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种合成方法，有效解决了传统无监督数据集的噪声干扰和偏见问题。Phi-4从多个领域提取高质量的数据种子，并通过两阶段过滤过程确保质量，生成了50种不同类型的合成数据集，总计约400B未加权的高质量token数据。

在训练方法上，Phi-4针对长上下文理解能力的需求，增加了rope位置编码的基础频率，并降低了最大学习率，以适应更长的文本序列。此外，Phi-4在后训练过程中采用了基于人工标注的SFT数据和自动构建的DPO对，通过结合这两种方式，Phi-4学会了产生更符合预期的回答，并能在不同情境下灵活调整语气和风格。在STEM领域问题解答方面，Phi-4利用Math-Shepherd工具进行验证和强化学习，有效提高了数学竞赛类题目的准确率。针对编程代码评估任务，Phi-4通过对开源项目中的代码片段进行分析和总结，提升了执行效率和准确性。

值得注意的是，微软AI副总裁、Phi系列模型的核心人物之一Sébastien Bubeck已离开微软加入OpenAI。