仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

342 0 0

文章摘要

随着大模型应用的扩展，基础模型的参数数量不断增加，给训练带来了巨大负担。为了解决这一问题，研究者们开始关注高效微调（Parameter Efficient Fine-Tuning, PEFT）算法，如Adapter、Prompt-Tuning以及LoRA等。然而，尽管PEFT方法发展迅速，其背后的数学基础和不同方法之间的性能差异尚未得到深入研究。

上海交通大学的研究者们对各种PEFT方法进行了全面数学分析，并提出了一种新的框架——子空间微调。这一框架旨在将所有已知的PEFT方法统一在一个理论下，主要集中于调整原始参数的子空间，涉及子空间的重构和扩展。研究者深入探讨了不同方法如何操作子空间，并从分解理论的角度阐明了每种方法的数学原理。此外，他们分析了导致性能差异的原因，并提供了理解不同PEFT策略内在动态的全面理论基础。

研究者基于子空间微调理论提出了两种新的PEFT方法，这两种方法在仅微调0.02%参数的情况下，性能接近于全面微调。他们还介绍了一个有效的框架，提升了LoRA等方法的性能，且不引入额外训练参数。通过在三种不同模型上测试超过十种方法，广泛的实验验证了其理论的稳健性，同时展示了提出的方法和框架的有效性。

子空间微调理论考虑了给定主干网络层的冻结权重矩阵，并通过分解理论将调整矩阵视为子空间微调。研究者将现有方法分类为三类：基于子空间重构的方法、基于子空间扩展的方法和基于子空间组合的方法。基于子空间重构的方法通过奇异值分解（SVD）将权重矩阵分解为正交子空间，并调整这些子空间以提高模型效率。基于子空间扩展的方法引入新子空间，结合该新子空间和原始权重矩阵的基生成扩展空间。基于子空间组合的方法同时执行子空间重构和扩展。

研究者提出的两种新微调方法，SSL（Scaling the Subspace of the Left singular vectors）和SSB（Scaling the Subspace of Both left and right singular vectors），展示了在极少的参数调整下实现接近全量微调的性能。此外，他们提出的MPC框架在不引入额外参数的情况下，显著增强了各种PEFT方法的性能，并帮助实现更稳定的训练。

论文和代码链接提供了更详细的信息，包括每种模式的具体操作、每种方法的具体内容、其背后的数学原理，以及研究者如何基于这一理论提出两种新方法。