文章摘要
【关 键 词】 参数微调、子空间理论、数学分析、新框架、性能提升
随着大模型应用的扩展,基础模型的参数数量不断增加,给训练带来了巨大负担。为了解决这一问题,研究者们开始关注高效微调(Parameter Efficient Fine-Tuning, PEFT)算法,如Adapter、Prompt-Tuning以及LoRA等。然而,尽管PEFT方法发展迅速,其背后的数学基础和不同方法之间的性能差异尚未得到深入研究。
上海交通大学的研究者们对各种PEFT方法进行了全面数学分析,并提出了一种新的框架——子空间微调。这一框架旨在将所有已知的PEFT方法统一在一个理论下,主要集中于调整原始参数的子空间,涉及子空间的重构和扩展。研究者深入探讨了不同方法如何操作子空间,并从分解理论的角度阐明了每种方法的数学原理。此外,他们分析了导致性能差异的原因,并提供了理解不同PEFT策略内在动态的全面理论基础。
研究者基于子空间微调理论提出了两种新的PEFT方法,这两种方法在仅微调0.02%参数的情况下,性能接近于全面微调。他们还介绍了一个有效的框架,提升了LoRA等方法的性能,且不引入额外训练参数。通过在三种不同模型上测试超过十种方法,广泛的实验验证了其理论的稳健性,同时展示了提出的方法和框架的有效性。
子空间微调理论考虑了给定主干网络层的冻结权重矩阵,并通过分解理论将调整矩阵视为子空间微调。研究者将现有方法分类为三类:基于子空间重构的方法、基于子空间扩展的方法和基于子空间组合的方法。基于子空间重构的方法通过奇异值分解(SVD)将权重矩阵分解为正交子空间,并调整这些子空间以提高模型效率。基于子空间扩展的方法引入新子空间,结合该新子空间和原始权重矩阵的基生成扩展空间。基于子空间组合的方法同时执行子空间重构和扩展。
研究者提出的两种新微调方法,SSL(Scaling the Subspace of the Left singular vectors)和SSB(Scaling the Subspace of Both left and right singular vectors),展示了在极少的参数调整下实现接近全量微调的性能。此外,他们提出的MPC框架在不引入额外参数的情况下,显著增强了各种PEFT方法的性能,并帮助实现更稳定的训练。
论文和代码链接提供了更详细的信息,包括每种模式的具体操作、每种方法的具体内容、其背后的数学原理,以及研究者如何基于这一理论提出两种新方法。
原文和模型
【原文链接】 阅读原文 [ 2277字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★