微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B

AIGC动态11小时前发布 almosthuman2014
155 0 0
微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B

 

文章摘要


【关 键 词】 小模型多模态高效推理语音识别数学性能

微软于2024年底推出的Phi-4模型家族新增Phi-4-multimodal和Phi-4-mini两个成员,标志着小型语言模型在性能与效率上的重大突破。140亿参数的Phi-4使用40%合成数据即在数学性能上超越GPT-4o,而新发布的38亿参数Phi-4-mini通过架构优化,在复杂推理任务中达到两倍规模模型的水平。

Phi-4-multimodal作为微软首个多模态模型,整合文本、视觉和语音/音频输入,采用创新的「Mixture of LoRA」技术。其语音模块仅46亿参数即登顶OpenASR排行榜,词错率6.14%刷新行业记录,同时在图表理解、文档推理等任务中超越Gemini系列模型。该模型支持视觉与语音的交叉模态处理,如在分析西雅图旅游规划时,能同步处理语音指令与地理图像信息。

Phi-4-mini的架构设计包含三大关键技术:分组查询注意力机制将KV缓存消耗降低至标准值的三分之一,输入/输出嵌入绑定技术实现20万词汇覆盖,分数RoPE维度设计优化长上下文处理。通过标准化函数调用协议,该模型可构建智能家居控制系统,实时分析安防监控数据,其ONNX Runtime优化版本在资源受限设备上表现突出。

训练数据策略成为模型成功的核心因素。Phi-4-mini采用严格过滤的合成数据配方,数学与编码数据占比提升使推理能力提高37%,后训练阶段新增的代码补全任务强化了上下文理解能力。多模态模型则使用0.5T图像-文本数据和WER质量筛选的语音数据,视觉训练涵盖OCR与科学图表解析。

性能评估显示,Phi-4-multimodal在语音翻译任务中超越WhisperV3模型15%,视觉问答准确率较Claude-3.5-Sonnet提升8%。Phi-4-mini在GSM8K数学基准测试获得82.5分,逼近DeepSeek-8B模型水平,其函数调用响应速度比Phi-3.5提升40%。两者均支持128K上下文长度,通过LongRoPE技术实现平滑的长序列处理。

这些突破验证了小模型通过架构创新与数据优化可实现商用级性能。Phi-4系列在智能手机、汽车等边缘计算场景的部署测试显示,推理延迟降低至大模型的1/5,为行业提供了高效能低成本的AI解决方案。微软公开的模型权重与训练框架,将进一步推动小型化模型在产业端的应用落地。

原文和模型


【原文链接】 阅读原文 [ 3215字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...