仅微调0.02%参数,性能接近全量微调!上交大推出高效微调统一新范式

AIGC动态2个月前发布 QbitAI
342 0 0
仅微调0.02%参数,性能接近全量微调!上交大推出高效微调统一新范式

 

文章摘要


【关 键 词】 参数微调子空间理论数学分析新框架性能提升

随着大模型应用的扩展,基础模型的参数数量不断增加,给训练带来了巨大负担。为了解决这一问题,研究者们开始关注高效微调(Parameter Efficient Fine-Tuning, PEFT)算法,如Adapter、Prompt-Tuning以及LoRA等。然而,尽管PEFT方法发展迅速,其背后的数学基础和不同方法之间的性能差异尚未得到深入研究。

上海交通大学的研究者们对各种PEFT方法进行了全面数学分析,并提出了一种新的框架——子空间微调。这一框架旨在将所有已知的PEFT方法统一在一个理论下,主要集中于调整原始参数的子空间,涉及子空间的重构和扩展。研究者深入探讨了不同方法如何操作子空间,并从分解理论的角度阐明了每种方法的数学原理。此外,他们分析了导致性能差异的原因,并提供了理解不同PEFT策略内在动态的全面理论基础。

研究者基于子空间微调理论提出了两种新的PEFT方法,这两种方法在仅微调0.02%参数的情况下,性能接近于全面微调。他们还介绍了一个有效的框架,提升了LoRA等方法的性能,且不引入额外训练参数。通过在三种不同模型上测试超过十种方法,广泛的实验验证了其理论的稳健性,同时展示了提出的方法和框架的有效性。

子空间微调理论考虑了给定主干网络层的冻结权重矩阵,并通过分解理论将调整矩阵视为子空间微调。研究者将现有方法分类为三类:基于子空间重构的方法、基于子空间扩展的方法和基于子空间组合的方法。基于子空间重构的方法通过奇异值分解(SVD)将权重矩阵分解为正交子空间,并调整这些子空间以提高模型效率。基于子空间扩展的方法引入新子空间,结合该新子空间和原始权重矩阵的基生成扩展空间。基于子空间组合的方法同时执行子空间重构和扩展。

研究者提出的两种新微调方法,SSL(Scaling the Subspace of the Left singular vectors)和SSB(Scaling the Subspace of Both left and right singular vectors),展示了在极少的参数调整下实现接近全量微调的性能。此外,他们提出的MPC框架在不引入额外参数的情况下,显著增强了各种PEFT方法的性能,并帮助实现更稳定的训练。

论文和代码链接提供了更详细的信息,包括每种模式的具体操作、每种方法的具体内容、其背后的数学原理,以及研究者如何基于这一理论提出两种新方法。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2277字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...