苹果大模型最新论文：AFM 模型多维度评测「出炉」

AIGC动态1年前 (2024)发布 aitechtalk

2,615 0 0

文章摘要

【关键词】 Apple Intelligence、端侧AI、隐私保护、语言模型、安全性评测

苹果公司在全球开发者大会（WWDC）上推出了最新的个人智能系统Apple Intelligence，该系统能够深度集成到iOS 18、iPadOS 18和macOS Sequoia中。苹果在2024年的一系列技术动作，被视为端侧AI领域的“开卷考试”，即在大模型时代，AI技术如何在手机、平板等端侧设备上运营，让手机变得更智能。

苹果团队在arXiv上更新了关于Apple Intelligence的最新论文，介绍了两个基础语言模型：AFM-on-device和AFM-server。AFM-on-device是一个在设备端运行的大约30亿参数的语言模型，而AFM-server是一个在私有云计算上运行的大规模服务器语言模型。论文显示，苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时，在保护用户数据隐私与安全上，苹果强调在后训练阶段不会使用用户的个人数据进行训练。

在人类评估中，AFM模型在端侧的表现仅次于Llama-3-8B，与其他模型相比显然更优。AFM模型的尺寸比Phi-3-mini小25%，胜率达47.7%，甚至超出开源强基线Gemma-7B和Mistral-7B。在私有云上，与GPT-3.5相比时，AFM也具有一定竞争力，胜率超50%。

在指令级和提示级的评估中，无论是端侧还是私有云上，AFM模型的表现都是最好的。其指令级的得分分别为85.7%和88.5%，提示级的得分则分别为79.3%和83.0%。此外，苹果还使用了AlpacaEval 2.0 LC和Arena Hard作为基准进行评估。在私有云上，这两项测试中均为GPT-4的表现最优。在端侧的AlpacaEval 2.0 LC测试中，则为Gemma-7B评分最优，AFM模型紧随其后。

在工具使用方面，苹果测试了AFM模型在调用工具使用基准测试中的表现。整体来看，AFM-server表现较优，在简单、多重、相关性、平均性维度中，AFM-server均得分最高。在并行多重维度中，AFM-server得分85.0，仅次于Gemini-1.5-Pro-0514的88.0，且领先于GPT-4与GPT-3.5。但AFM-on-device表现则较为一般，在多重、并行多重、相关性及平均维度中，均要稍逊于GPT-4和Gemini-1.5-Pro-0514。

在写作能力方面，AFM模型主要在摘要总结上表现较好，在端侧的表现优于Mistral-7B、Gemma-7B、Phi-3-mini与Gemma-2B，在私有云上则优于GPT-4、Mixtral-8x22B、DBRX Instruct与GPT-3.5。然而，在数学能力上，苹果AFM模型的表现则一般，仅在端侧MATH基准上高于Llama-3-8B、Phi-3 mini、Gemma-7B与Mistral-7B。

在负责任的AI方面，苹果团队将AFM模型在邮件、信息与通知这三个应用上作了测试，分别从仇恨言论、歧视、违法、色情、暴力五个维度来评估模型的“好”与“差”。研究显示，苹果的AFM模型在“好”维度的表现均高于Gemma-7B、Phi-3-8B与Llama-3-8B。

在安全性评测方面，苹果AFM-on-device的得分为7.5%，AFM-server的得分为6.3%，得分越低、效果越好，远远高于Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B与Mistral-7B（其余得分均在10%以上）。在安全提示词上，人类评估，苹果的AFM-on-device模型表现优于Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B与Mistral-7B，AFM-server模型的表现也要远超GPT-3.5、GPT-4和Llama-3-70B。