文章摘要
【关 键 词】 微软、AIGC、Phi-3-mini、小参数、语言模型
本文介绍了微软在AIGC领域的最新动态,着重关注了微软发布的小参数大语言模型Phi-3-mini。Phi-3-mini是微软Phi家族的第4代模型,拥有38亿参数,但训练数据高达3.3T tokens,性能超强。该模型对内存占用较少,可以在类似iPhone 14等手机上部署使用,并且每秒能生成12个tokens数据。微软在预训练Phi-3-mini时使用了合成数据,帮助模型更好地理解语言架构和特定业务场景术语。Phi-3-mini采用了transformer架构,支持4K和128K上下文窗口,是同类小模型中第一个支持128K的开源产品。微软还表示将在未来几周内发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型,其中Phi-3-medium的性能可媲美Mixtral 8x7B和GPT-3.5,但资源消耗更少。
微软在过去几年中推出了一系列小参数模型,如Phi-1、Phi-1.5和Phi-2,这些模型在编程领域和数学测试中表现出色。Phi-2在没有人类反馈强化学习和指令微调的情况下,击败了130亿参数的Llama-2和70亿参数的Mistral,性能甚至超过了700亿参数的Llama-2。Phi-3系列集合了之前三代所有的优秀技术特征,并使用了海量高质量数据集和创新的训练方法,成为目前最强的开源小参数模型。
Phi-3-mini的高性能得益于微软使用的高质量训练数据集,包括经过质量筛选的网络公开文档、教育数据、编程代码,以及合成数据创建的教科书式数据和聊天格式的监督数据。微软采用了迭代训练策略,帮助Phi-3-mini更好地吸收合成数据,进一步强化模型的理解和生成能力。Phi-3-mini在多个知名基准测试平台中进行了综合测试,结果显示在语言理解、编码和数学等方面的性能超过了参数更大的模型,整体表现出色。
总的来说,微软在AIGC领域的不断探索和创新,特别是在小参数大语言模型方面的发展,展现出了强大的技术实力和前瞻性思维。未来,随着Phi系列模型的不断完善和发布,将为开发者和研究人员提供更多高性能、低资源消耗的选择,推动人工智能技术的发展和应用落地。
原文和模型
【原文链接】 阅读原文 [ 1228字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★☆☆☆