标签:抗噪训练

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

阿里通义实验室最近开源了ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架,旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索...