苹果大模型最新论文:AFM 模型多维度评测「出炉」
文章摘要
【关 键 词】 Apple Intelligence、端侧AI、隐私保护、语言模型、安全性评测
苹果公司在全球开发者大会(WWDC)上推出了最新的个人智能系统Apple Intelligence,该系统能够深度集成到iOS 18、iPadOS 18和macOS Sequoia中。苹果在2024年的一系列技术动作,被视为端侧AI领域的“开卷考试”,即在大模型时代,AI技术如何在手机、平板等端侧设备上运营,让手机变得更智能。
苹果团队在arXiv上更新了关于Apple Intelligence的最新论文,介绍了两个基础语言模型:AFM-on-device和AFM-server。AFM-on-device是一个在设备端运行的大约30亿参数的语言模型,而AFM-server是一个在私有云计算上运行的大规模服务器语言模型。论文显示,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护用户数据隐私与安全上,苹果强调在后训练阶段不会使用用户的个人数据进行训练。
在人类评估中,AFM模型在端侧的表现仅次于Llama-3-8B,与其他模型相比显然更优。AFM模型的尺寸比Phi-3-mini小25%,胜率达47.7%,甚至超出开源强基线Gemma-7B和Mistral-7B。在私有云上,与GPT-3.5相比时,AFM也具有一定竞争力,胜率超50%。
在指令级和提示级的评估中,无论是端侧还是私有云上,AFM模型的表现都是最好的。其指令级的得分分别为85.7%和88.5%,提示级的得分则分别为79.3%和83.0%。此外,苹果还使用了AlpacaEval 2.0 LC和Arena Hard作为基准进行评估。在私有云上,这两项测试中均为GPT-4的表现最优。在端侧的AlpacaEval 2.0 LC测试中,则为Gemma-7B评分最优,AFM模型紧随其后。
在工具使用方面,苹果测试了AFM模型在调用工具使用基准测试中的表现。整体来看,AFM-server表现较优,在简单、多重、相关性、平均性维度中,AFM-server均得分最高。在并行多重维度中,AFM-server得分85.0,仅次于Gemini-1.5-Pro-0514的88.0,且领先于GPT-4与GPT-3.5。但AFM-on-device表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于GPT-4和Gemini-1.5-Pro-0514。
在写作能力方面,AFM模型主要在摘要总结上表现较好,在端侧的表现优于Mistral-7B、Gemma-7B、Phi-3-mini与Gemma-2B,在私有云上则优于GPT-4、Mixtral-8x22B、DBRX Instruct与GPT-3.5。然而,在数学能力上,苹果AFM模型的表现则一般,仅在端侧MATH基准上高于Llama-3-8B、Phi-3 mini、Gemma-7B与Mistral-7B。
在负责任的AI方面,苹果团队将AFM模型在邮件、信息与通知这三个应用上作了测试,分别从仇恨言论、歧视、违法、色情、暴力五个维度来评估模型的“好”与“差”。研究显示,苹果的AFM模型在“好”维度的表现均高于Gemma-7B、Phi-3-8B与Llama-3-8B。
在安全性评测方面,苹果AFM-on-device的得分为7.5%,AFM-server的得分为6.3%,得分越低、效果越好,远远高于Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B与Mistral-7B(其余得分均在10%以上)。在安全提示词上,人类评估,苹果的AFM-on-device模型表现优于Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B与Mistral-7B,AFM-server模型的表现也要远超GPT-3.5、GPT-4和Llama-3-70B。
原文和模型
【原文链接】 阅读原文 [ 1149字 | 5分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆