微软开源Phi-3.5:支持手机、平板电脑,性能超Llama 3.1

AIGC动态4个月前发布 AIGCOPEN
620 0 0
微软开源Phi-3.5:支持手机、平板电脑,性能超Llama 3.1

 

文章摘要


【关 键 词】 微软开源Phi-3.5模型Transformer多语言支持资源优化

微软公司近期开源了Phi-3.5系列模型,该系列包含三种模型:mini指令微调、专家混合和视觉微调。Phi-3.5系列模型以其较小的参数量却展现出超越其他知名开源模型的性能,成为开源大模型排行榜中唯一入选前10名的小参数模型。该系列模型专为算力和硬件受限的中小企业和个人开发者设计,适用于手机、平板电脑等移动设备。

Phi-3.5系列模型基于Transformer解码器,拥有3072维隐藏层、32个注意力头和32层架构,支持4K默认上下文长度,并通过LongRope技术扩展至128K,能够处理更长的文本序列,支持包括中文、英文、法文在内的多种语言。模型采用了组查询注意力机制和块稀疏注意力模块,有效提升了训练和推理速度。

Phi-3.5系列模型的性能得益于其使用了超过3.3万亿token的高质量训练数据集,该数据集由公开网络数据和合成数据组成,经过严格筛选。在安全优化方面,模型采用了监督微调、近端策略优化和直接偏好优化等方法,以减少非法和错误内容的输出,使输出更符合人类预期。

Phi-3.5-mini指令微调模型支持128K上下文,能够生成文本/代码、进行数学推理、解读长文档、总结会议摘要等。在多个测试基准中,其整体性能超越了Llama-3.1-8B和Mistral-7B等模型。

Phi-3.5视觉模型除了文本生成功能外,还支持图像识别、光学字符识别、图表/表格解读、图像比较、剪辑视频摘要等。在多个视觉基准测试中,其性能超越了多个知名开闭源模型,仅次于GPT-4o。

Phi-3.5专家混合模型拥有420亿参数,但在推理过程中仅有66亿参数处于激活状态,实现了资源消耗低的同时性能大幅度超越同类开闭源模型。该模型可以根据场景的复杂任务,调动不同的专家模块来处理,实现资源的合理分配。

专家混合模型的技术原理在于其由多个小型网络或专家组成,每个专家负责处理特定类型的任务。模型通过“门控网络”决定哪些专家需要被激活,以及每个专家对最终输出的贡献。这种架构的优势在于其可扩展性,可以通过增加专家或优化门控网络来提升模型在特定领域的表现。

微软开源的Phi-3.5系列模型为AIGC领域带来了新的选择,特别是对于资源受限的中小企业和个人开发者,提供了高性能、低资源消耗的解决方案。同时,该系列模型在安全性、多语言支持和可扩展性方面的表现,也为AIGC技术的发展和应用提供了新的可能性。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1019字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...