文章摘要
【关 键 词】 强化学习、智能模型、数据效率、模型微调、技术变革
新智元报道指出,强化微调(RLF)技术可能在强化学习领域引发一场变革。Yann LeCun曾将智能比作蛋糕,其中无监督学习是主体,有监督学习是糖霜,而强化学习则是樱桃。这一比喻在大型语言模型的发展中得到了验证,自监督学习占据了大部分训练时间,随后是监督微调,最后是强化学习,以提高模型的安全性。
OpenAI宣布将开放强化微调的API,允许开发者通过提供少量高质量样本来定制领域专家模型,这突显了强化学习的重要性。强化微调的核心在于“匹配答案”,通过给定查询和正确答案,帮助模型学习如何获得正确答案。与标准的指令调优相比,强化微调通过对少量数据点进行多次训练,使模型有时间学习新行为。
OpenAI的这一举措表明,强化学习的稳定性问题已得到解决。以往,研究人员需要运行多个随机种子以选择稳定的模型,而现在可以依赖强化学习模型的稳定运行。此外,强化微调与AI2发布的具有可验证奖励的强化学习(RLVR)工作相似,表明开源社区可能已经存在类似的技术。
OpenAI的o1模型可能使用了大规模RL数据进行训练,具有可验证的输出。通过API上传数据,OpenAI可以积累海量数据集来训练o1模型的下一个版本。这将使o1模型更加强大,尤其是在适用领域缺乏多样性的情况下。
强化微调的实现依赖于正确界定环境范围,包括转移函数和奖励函数。语言模型的转移函数是人为设计的,而奖励函数是从状态和动作到奖励标量值的映射。评分器可以根据预定义的结构对模型回复进行评分,以获得精确率、召回率等指标。
在数据效率方面,OpenAI提到用户只需要几十个RFT样本就可以在新领域进行学习。强化学习可以根据超参数设置在一批中生成多个评分回复,通过多次迭代进行重复训练,使模型能够尝试不同的策略来找到正确答案。
最后,强化学习更适合微调而不是从头开始训练。基础强化学习工作已在控制和决策方面证明了这一点。凭借稳定的基础,强化学习微调可以温和地搜索更好的行为表达,而不会显著改变模型性能。对于OpenAI来说,o1模型经过大规模训练,应该已经极其稳定,可以作为强化学习微调的基础。
原文和模型
【原文链接】 阅读原文 [ 2089字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★