「乘法变加法」！MIT清华校友全新方法优化Transformer：Addition is All You Need

2,893 0 0

文章摘要

近期，MIT的两位华人学者提出了一种名为L-Mul的新型乘法算法，旨在优化大规模语言模型（LLM）的能耗问题。LLM的能耗问题已经引起了联合国的关注，因为其能耗巨大，例如ChatGPT服务的日均用电量相当于18000个美国家庭的总用电量。为了降低能耗，研究者们一直在寻求减少神经网络的计算量，特别是减少浮点数矩阵乘法的计算量。

L-Mul算法通过使用整数加法器以高精度近似浮点数乘法运算，从而显著减少了计算量。与传统的浮点数乘法相比，L-Mul算法的计算复杂度从O(m^2)降低到了O(m)，其中m是尾数部分的位数。实验结果表明，L-Mul算法在张量处理硬件上应用时，可以降低逐元素浮点张量乘法的能量成本高达95%，点积的能量成本降低80%。此外，L-Mul算法可以直接集成到现有模型中，无需额外训练，甚至可以无损替换注意力机制中的所有矩阵、元素级别的浮点数乘法。

在精度分析方面，L-Mul算法在保留5位尾数的情况下，可以实现超越fp8_e4m3的更高准确度。实验结果还表明，L-Mul算法在各种规模的LLM中，使用6位尾数FP操作数时，可以达到最低平均误差，显著优于e5m2、e4m3两种fp8格式。

基准测试显示，L-Mul算法可以在不损失性能的情况下替代注意力机制中的张量乘法，而使用fp8乘法则会降低推理精度。在文本任务和视觉-语言任务的测试中，L-Mul算法达到了与bf16相似甚至更好的性能。

微调实验进一步证明了L-Mul算法的实际应用价值。在Gemma2模型的注意力机制层中实现L-Mul，并在GSM8k数据集上对模型进行微调后，性能可与使用fp8_e4m3累积精度的标准模型微调相媲美。

总体而言，L-Mul算法为提高LLM的能效和计算效率提供了一种有效的解决方案，有望推动人工智能计算的全面优化。