通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

AIGC动态3小时前发布 QbitAI
10 0 0
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

 

文章摘要


【关 键 词】 强化学习搜索引擎大模型抗噪训练开源

阿里通义实验室最近开源了ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架,旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索引擎返回的文档,但这些文档的质量难以预测,给训练过程带来了噪音和不稳定性。此外,频繁部署RL训练会产生大量API开销,限制了其可扩展性。ZeroSearch通过模拟搜索环境和渐进式抗噪训练,解决了这些问题。

ZeroSearch的核心创新在于它能够通过轻量微调将大语言模型(LLM)转变为“搜索引擎模拟器”。通过少量标注数据,LLM被微调为能够生成有用结果和噪声干扰的文档。这种能力使得模型在训练过程中能够动态调整文档质量,从而更好地模拟真实检索场景。此外,ZeroSearch引入了课程式学习机制,训练初期返回高质量文档,后期逐渐混入噪声,使模型从简单的检索场景逐步过渡到更具挑战性的任务。这种策略不仅提升了模型的推理能力,还显著增强了训练的稳定性和效果。

ZeroSearch通过模拟搜索引擎,完全消除了与真实搜索引擎交互的API费用,使得大规模强化学习训练变得更加经济可行。它兼容多种强化学习算法,包括PPO(Proximal Policy Optimization)和GRPO(Group Relative Policy Optimization)。实验表明,GRPO在训练稳定性方面表现更好,而PPO则在某些任务中提供了更高的灵活性。这种兼容性为研究人员提供了更多的选择,使得ZeroSearch能够在不同的模型和任务中表现出色。

在实验结果方面,ZeroSearch在多个问答数据集上的表现显著优于现有的基线方法,包括直接提示、RAG和Search-R1等。无论是单跳还是多跳问答任务,ZeroSearch都表现出色。特别是在LLaMA-3.2-3B模型上的奖励曲线对比中,ZeroSearch的学习曲线更加平滑且最终性能优于Search-R1,表明其在训练过程中的稳定性和优越性。

ZeroSearch的另一个优势在于其适用于不同规模的模型。使用7B参数的检索模块就能达到与谷歌搜索相当的性能,而14B参数的检索模块甚至能够超越谷歌搜索。这表明ZeroSearch不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为LLM的检索能力提升提供了广阔的空间。

总的来说,ZeroSearch通过模拟搜索引擎和课程式学习策略,不仅降低了训练成本,还显著提升了模型的检索和推理能力。它的开源为研究人员提供了一个强大的工具,有望在未来的大模型研究中发挥重要作用。

原文和模型


【原文链接】 阅读原文 [ 1199字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...