文章摘要
【关 键 词】 L-Mul算法、能耗优化、语言模型、计算效率、人工智能
近期,MIT的两位华人学者提出了一种名为L-Mul的新型乘法算法,旨在优化大规模语言模型(LLM)的能耗问题。LLM的能耗问题已经引起了联合国的关注,因为其能耗巨大,例如ChatGPT服务的日均用电量相当于18000个美国家庭的总用电量。为了降低能耗,研究者们一直在寻求减少神经网络的计算量,特别是减少浮点数矩阵乘法的计算量。
L-Mul算法通过使用整数加法器以高精度近似浮点数乘法运算,从而显著减少了计算量。与传统的浮点数乘法相比,L-Mul算法的计算复杂度从O(m^2)降低到了O(m),其中m是尾数部分的位数。实验结果表明,L-Mul算法在张量处理硬件上应用时,可以降低逐元素浮点张量乘法的能量成本高达95%,点积的能量成本降低80%。此外,L-Mul算法可以直接集成到现有模型中,无需额外训练,甚至可以无损替换注意力机制中的所有矩阵、元素级别的浮点数乘法。
在精度分析方面,L-Mul算法在保留5位尾数的情况下,可以实现超越fp8_e4m3的更高准确度。实验结果还表明,L-Mul算法在各种规模的LLM中,使用6位尾数FP操作数时,可以达到最低平均误差,显著优于e5m2、e4m3两种fp8格式。
基准测试显示,L-Mul算法可以在不损失性能的情况下替代注意力机制中的张量乘法,而使用fp8乘法则会降低推理精度。在文本任务和视觉-语言任务的测试中,L-Mul算法达到了与bf16相似甚至更好的性能。
微调实验进一步证明了L-Mul算法的实际应用价值。在Gemma2模型的注意力机制层中实现L-Mul,并在GSM8k数据集上对模型进行微调后,性能可与使用fp8_e4m3累积精度的标准模型微调相媲美。
总体而言,L-Mul算法为提高LLM的能效和计算效率提供了一种有效的解决方案,有望推动人工智能计算的全面优化。
原文和模型
【原文链接】 阅读原文 [ 3208字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★