苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理

AIGC动态2天前发布 ai-front
161 0 0
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理

 

文章摘要


【关 键 词】 AI模型苹果技术语言处理开发者工具性能优化

苹果在WWDC全球开发者大会上推出了新一代专为增强Apple Intelligence功能开发的基座语言模型。该模型家族包括一个约3B参数的紧凑型设备端模型和一个基于服务器的混合专家模型(PT-MoE),后者采用全新架构专为私有云定制。这些模型支持15种语言,改进了工具使用与推理能力,能理解图像与文本输入,效率更高且速度更快。设备端模型在所有语言环境下表现优于参数更大的Qwen-2.5-3B,英语环境下可与Gemma-3-4B媲美;服务器端模型性能优于Llama-4-Scout,但仍落后于Qwen-3-235B等超大模型。

为提升效率,苹果开发了创新架构设计。设备端模型通过键值缓存共享机制将内存占用降低38.5%;服务器端PT-MoE模型采用并行轨道专家混合设计,显著降低同步开销。交错注意力架构的引入增强了长上下文处理能力,结合滑动窗口局部注意力与旋转位置嵌入,在保持模型质量的同时减少缓存需求。视觉功能方面,苹果开发了由大规模图像数据训练的视觉编码器,采用改进的ViTDet架构和寄存器窗口机制来捕捉全局与局部特征。

训练方案经历多阶段优化:预训练第一阶段专注于文本模态,使用蒸馏损失函数降低成本90%;第二阶段整合视觉理解能力;持续预训练阶段通过调整数据集混合比提升多语言和代码能力。后训练流程结合人工演示与合成数据,强化学习(RLHF)带来的提升显著优于监督微调(SFT),人类评估优势比例达16:9。量化技术将设备端模型压缩至每权重2bit,服务器端模型采用自适应纹理压缩,在保持质量的同时大幅降低功耗。

苹果同步推出基座模型框架,允许开发者通过三行Swift代码接入核心AI功能。该框架原生支持工具调用和引导式生成,Automattic等公司已将其应用于日记类App开发。框架内置隐私保护机制,测试版将通过Apple Developer Program发布。这一举措标志着苹果正式向第三方开放其AI能力,为应用开发生态注入新的智能维度。

原文和模型


【原文链接】 阅读原文 [ 3200字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...