大模型端侧 CPU 部署最高提效 6 倍！微软亚研院新开源项目 T-MAC 技术解析来了

2,488 0 0

文章摘要

微软亚洲研究院的研究员们开发了一种名为T-MAC的新技术，旨在增强边缘设备上的智能性，通过在这些设备上部署大型语言模型（LLMs）。T-MAC使用基于查找表（LUT）的计算范式，直接支持混合精度矩阵乘法，无需反量化，从而显著提高了推理性能并减少了乘法和加法操作的数量。这项技术为在资源受限的边缘设备上部署低比特LLMs提供了可能。

T-MAC的一个关键优势是它不依赖于专用加速器，如NPU或GPU，而是可以仅利用CPU部署LLMs。实验表明，T-MAC在推理速度上甚至超过了专用加速器，例如在Surface AI PC上，3B BitNet-b1.58模型的生成速率可达每秒48个token，而2bit 7B llama模型的生成速率可达每秒30个token。此外，T-MAC在功耗方面也具有优势，所需的核心数仅为原始框架的1/4至1/6。

T-MAC的计算性能随着比特数的降低而线性提高，这在基于反量化实现的GPU和NPU中难以观察到。例如，在2比特下，T-MAC能够实现单核每秒10个token，四核每秒28个token的性能，大大超越了NPU。

T-MAC的核心创新在于其基于比特的计算方式，取代了传统的以数据类型为核心的计算。这种方法只需为单独的一个比特设计最优的数据结构，然后通过堆叠的方式扩展到更高的2/3/4比特。同时，对于不同精度的激活向量，仅有构建表的过程需要变化，在查表时不再需要考虑不同的数据结构。

为了实现T-MAC，研究员们深入探究了基于查表的计算数据流，并设计了高效的数据结构和计算流程。这包括将LUT存入片上内存以提升随机访存性能，改变矩阵axis计算顺序以提高LUT的数据重用率，为查表单独设计最优矩阵分块方式，以及对Intel/ARM CPU进行针对性优化。

T-MAC现已开源，用户可以轻松地在自己的设备上运行Llama-3-8B-instruct模型。这项技术的推出，为在边缘设备上高效部署低比特大型语言模型提供了强有力的支持，有望推动智能设备的发展和应用。

此外，8月18-19日将在上海举办的AICon全球人工智能开发与应用大会，将有来自各大企业和研究机构的资深专家分享AI和大模型的落地场景与最佳实践，为与会者提供宝贵的技术视野和实践指导。同时，AI技术正深度重塑各行各业的生产和生活方式，从教育、零售到通信、金融等领域，AI的应用无处不在，成为社会经济发展的强大驱动力。