大模型端侧 CPU 部署最高提效 6 倍!微软亚研院新开源项目 T-MAC 技术解析来了

AIGC动态4个月前发布 ai-front
1,109 0 0
大模型端侧 CPU 部署最高提效 6 倍!微软亚研院新开源项目 T-MAC 技术解析来了

 

文章摘要


【关 键 词】 边缘智能T-MAC技术低比特模型混合精度AI应用

微软亚洲研究院的研究员们开发了一种名为T-MAC的新技术,旨在增强边缘设备上的智能性,通过在这些设备上部署大型语言模型(LLMs)。T-MAC使用基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法,无需反量化,从而显著提高了推理性能并减少了乘法和加法操作的数量。这项技术为在资源受限的边缘设备上部署低比特LLMs提供了可能。

T-MAC的一个关键优势是它不依赖于专用加速器,如NPU或GPU,而是可以仅利用CPU部署LLMs。实验表明,T-MAC在推理速度上甚至超过了专用加速器,例如在Surface AI PC上,3B BitNet-b1.58模型的生成速率可达每秒48个token,而2bit 7B llama模型的生成速率可达每秒30个token。此外,T-MAC在功耗方面也具有优势,所需的核心数仅为原始框架的1/4至1/6。

T-MAC的计算性能随着比特数的降低而线性提高,这在基于反量化实现的GPU和NPU中难以观察到。例如,在2比特下,T-MAC能够实现单核每秒10个token,四核每秒28个token的性能,大大超越了NPU。

T-MAC的核心创新在于其基于比特的计算方式,取代了传统的以数据类型为核心的计算。这种方法只需为单独的一个比特设计最优的数据结构,然后通过堆叠的方式扩展到更高的2/3/4比特。同时,对于不同精度的激活向量,仅有构建表的过程需要变化,在查表时不再需要考虑不同的数据结构。

为了实现T-MAC,研究员们深入探究了基于查表的计算数据流,并设计了高效的数据结构和计算流程。这包括将LUT存入片上内存以提升随机访存性能,改变矩阵axis计算顺序以提高LUT的数据重用率,为查表单独设计最优矩阵分块方式,以及对Intel/ARM CPU进行针对性优化。

T-MAC现已开源,用户可以轻松地在自己的设备上运行Llama-3-8B-instruct模型。这项技术的推出,为在边缘设备上高效部署低比特大型语言模型提供了强有力的支持,有望推动智能设备的发展和应用。

此外,8月18-19日将在上海举办的AICon全球人工智能开发与应用大会,将有来自各大企业和研究机构的资深专家分享AI和大模型的落地场景与最佳实践,为与会者提供宝贵的技术视野和实践指导。同时,AI技术正深度重塑各行各业的生产和生活方式,从教育、零售到通信、金融等领域,AI的应用无处不在,成为社会经济发展的强大驱动力。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2387字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...