微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

AIGC动态1年前 (2024)发布 AIera

2,125 0 0

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

文章摘要

【关键词】 微软AI、Phi 3.5系列、多模态模型、轻量级AI、MoE架构

微软发布了Phi 3.5系列的三款新模型，分别为Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct，这些模型在Hugging Face平台上可供下载、使用和微调，并获得了微软的MIT许可证，允许商业应用和修改。这三款模型在第三方基准测试中表现优异，甚至在某些情况下超越了谷歌、Meta和OpenAI的领先模型。

Phi-3.5-mini-instruct是一个轻量级AI模型，拥有38.2亿参数，支持128k token上下文长度，适合在内存或算力受限的设备上使用。该模型在多语言和多轮对话任务中表现出色，支持23种语言，并在长上下文任务中超越了其他类似大小的模型。

Phi-3.5-MoE-instruct是微软Phi模型中的首个MoE（Mixture of Experts）模型，采用混合专家架构，拥有419亿参数，专注于处理高质量、推理密集的数据。MoE模型经过严格的优化过程，确保精确且安全的指令遵守。在专业学科领域，Phi-3.5-MoE在5个样本MMLU上击败了GPT-4o mini，涉及STEM、人文科学、社会科学等不同专业水平的学科。

Phi-3.5-vision-instruct是一个多模态模型，集成了文本和图像处理功能，拥有41.5亿参数。该模型适合图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。Phi-3.5-vision在训练中结合了合成和过滤的公开可用数据集，重点关注高质量、推理密集的数据。

这三款模型的发布，展示了微软在AI领域的创新和实力，为开发人员提供了更多的选择和可能性。同时，微软的开放许可证政策，也为AI技术的商业应用和进一步发展提供了便利。