比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,

AIGC动态4天前发布 AIGCOPEN
167 0 0
比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,

 

文章摘要


【关 键 词】 大模型微调强化学习开源代码生成

知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台(RFT),这一平台通过奖励函数和自定义函数实现持续强化学习,无需依赖大量标注数据。与传统监督式微调相比,RFT支持无服务器和端到端训练方法,用户仅需通过浏览器设定微调目标并上传数据,即可完成复杂的大模型微调流程。这一设计显著降低了微调的门槛和复杂性。

为了展示RFT的强大功能,Predibase基于阿里开源的Qwen2.5-Coder-32B-instruct模型,微调了一个专门用于将PyTorch代码翻译为Triton的模型。这一任务对大多数大语言模型(LLM)来说极具挑战性,需要对PyTorch和Triton两个框架有深入理解,并具备复杂的推理能力。通过RFT,Predibase结合了冷启动监督式微调、强化学习和课程学习,仅使用十几个标记数据点就完成了微调。在Kernelbench数据集上的基准测试显示,微调后的Qwen2.5-Coder-32B-instruct模型在正确率上显著优于其他主流模型,其正确率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型体量却更小。目前,该模型已在Hugging Face上开源。

RFT的技术优势主要体现在其不依赖大量标注数据,而是通过奖励函数引导模型学习。传统方法需要海量人工标注数据,成本高昂且耗时,而RFT允许用户根据任务需求自定义奖励函数,灵活定义模型优化目标。例如,在代码生成任务中,奖励函数可验证代码正确性;在问答任务中,可评估答案相关性和准确性。这种灵活性使RFT在适应性和泛化能力上优于传统方法。此外,RFT支持持续改进,随着奖励函数优化和更多反馈数据积累,模型能不断学习和改进,适应任务需求变化。

在训练与推理效率方面,RFT平台是完全托管的无服务器平台,用户无需管理底层服务器或基础设施,平台自动处理训练、部署和推理全过程,大大降低了开发和运维复杂性。RFT还利用多LoRA框架和流式微批处理技术,实现了高效的训练和推理。在处理复杂任务时,RFT支持课程学习,即从简单到复杂逐步训练模型,使其能处理更复杂任务,这在需要深度推理的任务中特别有效。

在模型部署方面,Predibase的推理引擎原生支持RFT训练的模型,并提供高性能的无服务器部署解决方案,用户可将训练好的模型快速部署到生产环境中,并获得行业级服务水平支持。RFT还具备更好的泛化能力,通过奖励函数引导模型学习,避免过度拟合标注数据,从而提升模型在实际应用中的鲁棒性。

Predibase表示,DeepSeek开源R1后,在全球AI领域产生了巨大影响,让更多人意识到强化学习微调对训练大模型的重要性。受此启发,他们开发了这一端到端无服务器强化微调平台,旨在进一步推动大模型技术的发展与应用。

原文和模型


【原文链接】 阅读原文 [ 1221字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...