模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平

文章摘要
Databricks公司推出了一种名为TAO(Test-time Adaptive Optimization)的新型模型调优方法,该方法无需标注数据即可完成大型语言模型(LLMs)的微调。TAO的核心创新在于摒弃了人工标注数据,转而利用测试时计算和强化学习算法来引导模型探索任务的可能响应,并通过评估结果更新模型参数。这种方法不仅降低了成本,还在性能上超越了传统的基于标注数据的监督微调方法。
TAO的工作原理分为四个核心阶段:响应生成、响应评分、强化学习训练和持续改进。在响应生成阶段,系统收集任务相关的输入提示或查询样本;在响应评分阶段,系统化评估生成响应的质量;在强化学习训练阶段,模型通过自适应学习过程持续优化预测能力;在持续改进阶段,模型随着使用频次增加而持续进化。尽管TAO在训练阶段使用了测试时计算,但最终产出的模型在执行任务时仍保持低推理成本,这意味着经过TAO调优的模型在推理阶段具有与原版模型相同的计算开销和响应速度。
实验结果表明,TAO在多个企业级任务中显著提升了开源模型(如Llama系列)的性能。在文档问答和SQL生成等专业企业任务中,TAO的表现优于需要数千标注样本的传统微调方法,使Llama 8B/70B等高效开源模型达到了GPT-4o/o3-mini等商业模型的同等水平。此外,在零标注数据条件下,TAO将Llama 3.3 70B模型在企业综合基准测试中的表现提升了2.4%。增加TAO训练阶段的算力投入,可以在相同数据条件下获得更优模型质量,且不会增加推理阶段的成本消耗。
TAO的优势在于其无需人工标注数据,仅需工程师提供任务相关的典型输入样本即可实现卓越性能。与耗时且易出错的提示工程以及需要昂贵人工标注数据的传统微调方法相比,TAO提供了一种更为高效和经济的模型调优方案。通过TAO,Databricks已经取得了三项突破性成果,证明了该方法在企业级任务中的广泛应用潜力。
总的来说,TAO为AI模型调优提供了一种突破性方法,不仅降低了成本,还显著提升了模型性能。该方法的应用使得开源模型在企业级任务中的表现接近甚至超越了商业闭源模型,为未来的AI模型调优提供了新的方向。
原文和模型
【原文链接】 阅读原文 [ 1768字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆