文章摘要
【关 键 词】 边缘智能、T-MAC技术、低比特模型、混合精度、AI应用
微软亚洲研究院的研究员们开发了一种名为T-MAC的新技术,旨在增强边缘设备上的智能性,通过在这些设备上部署大型语言模型(LLMs)。T-MAC使用基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法,无需反量化,从而显著提高了推理性能并减少了乘法和加法操作的数量。这项技术为在资源受限的边缘设备上部署低比特LLMs提供了可能。
T-MAC的一个关键优势是它不依赖于专用加速器,如NPU或GPU,而是可以仅利用CPU部署LLMs。实验表明,T-MAC在推理速度上甚至超过了专用加速器,例如在Surface AI PC上,3B BitNet-b1.58模型的生成速率可达每秒48个token,而2bit 7B llama模型的生成速率可达每秒30个token。此外,T-MAC在功耗方面也具有优势,所需的核心数仅为原始框架的1/4至1/6。
T-MAC的计算性能随着比特数的降低而线性提高,这在基于反量化实现的GPU和NPU中难以观察到。例如,在2比特下,T-MAC能够实现单核每秒10个token,四核每秒28个token的性能,大大超越了NPU。
T-MAC的核心创新在于其基于比特的计算方式,取代了传统的以数据类型为核心的计算。这种方法只需为单独的一个比特设计最优的数据结构,然后通过堆叠的方式扩展到更高的2/3/4比特。同时,对于不同精度的激活向量,仅有构建表的过程需要变化,在查表时不再需要考虑不同的数据结构。
为了实现T-MAC,研究员们深入探究了基于查表的计算数据流,并设计了高效的数据结构和计算流程。这包括将LUT存入片上内存以提升随机访存性能,改变矩阵axis计算顺序以提高LUT的数据重用率,为查表单独设计最优矩阵分块方式,以及对Intel/ARM CPU进行针对性优化。
T-MAC现已开源,用户可以轻松地在自己的设备上运行Llama-3-8B-instruct模型。这项技术的推出,为在边缘设备上高效部署低比特大型语言模型提供了强有力的支持,有望推动智能设备的发展和应用。
此外,8月18-19日将在上海举办的AICon全球人工智能开发与应用大会,将有来自各大企业和研究机构的资深专家分享AI和大模型的落地场景与最佳实践,为与会者提供宝贵的技术视野和实践指导。同时,AI技术正深度重塑各行各业的生产和生活方式,从教育、零售到通信、金融等领域,AI的应用无处不在,成为社会经济发展的强大驱动力。
原文和模型
【原文链接】 阅读原文 [ 2387字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★