拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了

AIGC动态8小时前发布 ai-front
49 0 0
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了

 

文章摘要


【关 键 词】 AI搜索成本训练技术

阿里巴巴的研究人员最近发布了一项名为“ZeroSearch”的新技术,旨在降低训练AI系统进行信息搜索成本和复杂性,并完全消除对昂贵商业搜索引擎API的需求。这项技术通过强化学习框架,允许大语言模型(LLM)通过模拟方式开发高级搜索功能,而无需在训练过程中与真实搜索引擎进行交互。ZeroSearch的表现优于基于真实搜索引擎的模型,同时产生的API成本为零,这使得企业能够更好地控制AI系统学习检索信息的方式,并节省大量API费用。

ZeroSearch适用于多个模型系列,包括Qwen-2.5和LLaMA-3.2,无论是基础模型还是经过指令调整的模型都能应用,且无需单独的监督预热阶段。该技术与各种强化学习算法兼容,如近端策略优化(PPO)和组相对策略优化(GRPO)。研究人员已在GitHub和Hugging Face上提供了代码、数据集和预训练模型,供其他研究人员和公司应用这一方法。

在针对七个问答数据集进行的实验中,ZeroSearch的性能不仅与使用真实搜索引擎训练的模型相当,而且在很多情况下超越了它们。研究表明,ZeroSearch使用3B LLM作为模拟搜索引擎,可以有效地提升策略模型的搜索能力。一个拥有70亿参数的检索模块能达到与谷歌搜索相媲美的性能,而一个拥有140亿参数的模块甚至超过了谷歌搜索的表现。此外,ZeroSearch表现出强大的可扩展性,增加GPU数量可以显著加快模拟LLM的生成吞吐量,从而实现高效的大规模部署。

ZeroSearch在成本方面的节省也相当可观。通过SerpAPI使用Google搜索引擎对大约64000个搜索查询进行训练,成本约为586.70美元;而在四个A100 GPU上使用一个拥有140亿参数的模拟大型语言模型进行训练,成本仅为70.80美元,降低了88%。ZeroSearch的局限性在于部署模拟搜索LLM需要访问GPU服务器,虽然比商业API使用更具成本效益,但这会带来额外的基础设施成本

ZeroSearch的方法始于一个轻量级的监督微调过程,将LLM转化为一个能够生成相关和不相关文档以响应查询的检索模块,作为模拟搜索引擎。研究人员指出,LLM在大规模预训练期间已经获得了广泛的世界知识,并且能够在给定搜索查询的情况下生成相关文档。通过轻量级监督微调,即使是相对较小的LLM也可以有效地模拟真实搜索引擎的行为。

在强化学习训练期间,ZeroSearch采用了基于课程搜索模拟的推出策略,逐步增加训练的难度,以模拟越来越具有挑战性的检索场景。奖励信号是强化学习过程中的主要监督,ZeroSearch采用了基于F1分数的奖励,该奖励只关注答案的准确性。

ZeroSearch的这一突破标志着AI系统的训练方式发生了重大转变,表明AI在不依赖搜索引擎等外部工具的情况下也能实现提升。对于预算有限的小型AI公司和初创企业来说,ZeroSearch可以创造公平的竞争环境,将API调用的成本降低了近90%,使高级AI训练变得更加触手可及。此外,这项技术还让开发者能够更好地控制训练过程,精确控制AI在训练过程中所接触到的信息。

随着大语言模型的不断发展,像ZeroSearch这样的技术意味着,未来AI系统可以通过自我模拟而不是依赖外部服务来发展日益复杂的能力,这有可能会改变AI开发的经济模式,并减少对大型技术平台的依赖。传统搜索引擎对AI开发的必要性似乎在降低,随着AI系统变得更加自给自足,未来几年的技术格局可能会大不相同。

原文和模型


【原文链接】 阅读原文 [ 1906字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...