苹果在小模型上还是非常领先的
文章摘要
【关 键 词】 小模型、语言理解、预训练、模型性能、开放研究
AI领域中,小模型技术越来越受欢迎,因为这些模型可以在个人设备上运行,无需依赖云端大型数据中心。苹果最近推出了OpenELM项目,包括一系列小型AI语言模型,可以直接在智能手机上运行,目前主要用于概念验证和研究,未来可能成为苹果设备上AI产品的基础。OpenELM模型在Hugging Face平台上可用,虽然遵守苹果特定的示例代码许可,但可以获取源代码。
微软的Phi-3模型与OpenELM类似,旨在实现小型AI模型中的有效语言理解和处理能力,可以在本地设备上运行。Phi-3-mini模型有38亿参数,而OpenELM模型更小,参数范围在2.7亿到30亿之间。相比之下,Meta的Llama 3系列最大模型有700亿参数,OpenAI的GPT-3模型在2020年推出时有1750亿参数。近年来的研究趋势是让小模型达到几年前大模型的能力水平。
OpenELM包括四种预训练模型和四种经过指令调优的模型,最大处理窗口为2048 Token,训练数据集包括约1.8万亿Token。苹果采用“逐层缩放”策略,在模型各层之间更高效地分配参数,提升了模型性能,比Allen AI的OLMo 1B模型提高了2.36%的精确度,只需一半的预训练Token。
苹果发布了用于训练OpenELM的CoreNet库代码,并提供了训练配方,确保模型的可复制性和透明性,推动开放研究。苹果希望通过发布源代码和模型权重,赋能开放研究社区,但也提醒模型在响应用户输入时可能产生不准确、有害、有偏见或令人反感输出的风险。
尽管苹果尚未将这些新的AI语言模型技术整合到消费者设备中,但预计iOS 18更新将包括新的AI功能,利用设备上的处理确保用户隐私。苹果可能会考虑与Google或OpenAI合作,处理更复杂的AI处理任务,以提升Siri的功能。
原文和模型
【原文链接】 阅读原文 [ 1112字 | 5分钟 ]
【原文作者】 AI大模型实验室
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★☆☆☆