LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

AIGC动态22小时前发布 AIera
105 0 0
LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

 

文章摘要


【关 键 词】 大语言模型参数生成零样本高效微调泛化能力

最近,来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员提出了一种名为「拖拽式大语言模型」(DnD)的创新方法,能够基于提示词快速生成模型参数,无需微调即可适应特定任务。这一方法不仅显著提升了效率,最高可达传统微调方法的12000倍,还展现了出色的零样本泛化能力。传统的大语言模型虽然具备零样本泛化能力,但在实际应用中仍需要数小时的微调来适配特定任务。即便是参数高效方法如LoRA,也无法完全消除微调成本。DnD通过一个轻量级文本编码器与级联超卷积解码器的组合,能够在数秒内根据无标签的任务提示词生成LoRA权重矩阵,为快速实现模型专业化提供了强大、灵活且高效的替代方案。

DnD的核心优势体现在三个方面:极致效率、卓越性能和强大泛化能力。其计算开销比传统全量微调低12000倍,在零样本学习的常识推理、数学、编码及多模态基准测试中,性能比最强大的LoRA模型高出30%。此外,DnD仅需无标签的提示词即可在不同领域间展现出强大的泛化能力。研究人员通过观察发现,LoRA适配器本质上是其训练数据的函数,梯度下降会将基础权重「拖拽」至特定任务的最优状态。DnD通过直接学习从提示到权重的映射,绕过了梯度下降过程,实现了无需微调的参数生成

DnD的实现方法包括两个核心步骤:准备训练数据与训练参数生成器。在准备数据时,研究人员将模型参数与特定数据集的提示词进行显式配对。训练时,DnD模型将提示词作为输入生成参数,并使用原始的LoRA参数作为监督信号进行学习。参数生成器由级联卷积块构成,每个超卷积块包含三个超卷积模块,用于在不同维度上提取并融合特征信息。训练过程中,团队利用现成的文本编码器提取提示词的嵌入向量,并将其输入生成器,通过均方误差(MSE)损失优化生成的权重。在推理阶段,DnD仅需一次前向传播即可为全新任务生成定制参数。

在零样本学习效果评估中,DnD在未曾见过的数据集上展现出显著的泛化能力,准确率超越了用于训练的LoRA模型。DnD能够为数学、代码和多模态问答等复杂任务生成参数,并在这些任务上展现出强大的零样本学习能力。此外,DnD在多种任务上超越了基座大语言模型,展现出显著的「拖拽」增强效果。实验结果表明,DnD在零样本测试集上的平均性能显著提升,并能够很好地泛化到多种真实世界任务和不同尺寸的大语言模型。

与其他微调方法的对比进一步展示了DnD的强大能力。DnD的性能超越了LoRA全量微调,同时速度快了2500倍。虽然经过更多轮次迭代,全量微调的性能会超过DnD,但其代价是高达12000倍的推理延迟。在样本数少于256个时,DnD的性能稳定地优于少样本学习和上下文学习。值得注意的是,少样本学习和上下文学习需要依赖带标签的答案,而DnD仅需无标签的提示词即可达到与全量样本相当甚至更优的性能,同时速度提高了2500-12000倍。

这项研究的核心贡献在于提出了一种无需微调即可生成任务专属权重的方法,显著提升了模型适应新任务的效率和性能。通过利用已微调的LoRA作为训练数据,DnD成功地在输入提示词与模型参数之间建立了联系,为高效机器学习与参数生成领域提供了新的研究方向。

原文和模型


【原文链接】 阅读原文 [ 2087字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...