文章摘要
【关 键 词】 Phi-4模型、AI算力、高质量数据、合成训练数据、长上下文理解
微软研究院推出的Phi-4模型以其140亿参数的小规模在多个基准测试中超越了参数量更大的模型。在GPQA和MATH基准测试中,Phi-4分别取得了56.1和80.4的高分,超越了GPT-4o和开源模型Qwen 2.5 -14B、Llama-3.3-70B。在AMC数学竞赛测试中,Phi-4更是以91.8分的成绩超越了多个知名模型,甚至能与参数量高达4050亿的Llama-3.1相媲美。这表明,通过高质量数据和创新训练方法,小参数模型也能在性能上战胜大参数模型,同时在部署、应用和推理方面减少对AI算力和环境的要求。
Phi-4的成功部分归功于其使用的高质量合成训练数据。与传统依赖网络抓取或公开数据库获取的真实世界文本不同,Phi-4采用了种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种合成方法,有效解决了传统无监督数据集的噪声干扰和偏见问题。Phi-4从多个领域提取高质量的数据种子,并通过两阶段过滤过程确保质量,生成了50种不同类型的合成数据集,总计约400B未加权的高质量token数据。
在训练方法上,Phi-4针对长上下文理解能力的需求,增加了rope位置编码的基础频率,并降低了最大学习率,以适应更长的文本序列。此外,Phi-4在后训练过程中采用了基于人工标注的SFT数据和自动构建的DPO对,通过结合这两种方式,Phi-4学会了产生更符合预期的回答,并能在不同情境下灵活调整语气和风格。在STEM领域问题解答方面,Phi-4利用Math-Shepherd工具进行验证和强化学习,有效提高了数学竞赛类题目的准确率。针对编程代码评估任务,Phi-4通过对开源项目中的代码片段进行分析和总结,提升了执行效率和准确性。
值得注意的是,微软AI副总裁、Phi系列模型的核心人物之一Sébastien Bubeck已离开微软加入OpenAI。
原文和模型
【原文链接】 阅读原文 [ 1353字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆