OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

1,839 0 0

文章摘要

OpenAI在连续直播的第二天中展示了强化微调技术的强大能力，该技术使得o1-mini模型在性能上全面超越了基础模型o1。这是OpenAI首次将仅供内部使用的强化学习技术对外开放，允许开发者通过提供少量高质量任务来定制领域专家模型，并对模型的回应进行评分。强化微调不仅提升了模型在特定任务上的准确性，还增强了其在处理领域问题时的推理能力，对于需要高精确性和专业知识的领域尤为重要。

在官方演示中，经过强化微调的o1 mini在Top-1准确率上提升了180%，达到了31%，远超o1的25%。这一成果被奥特曼称为2024年最大的惊喜之一。强化微调研究计划目前已进入Alpha阶段，预计于2025年第一季度公开发布。

强化微调的技术思路与字节跳动团队在ACL 2024录用为Oral的论文中提出的ReFT（Reinforced Fine-Tuning）相似。ReFT通过在线强化学习（PPO算法）优化模型，自动采样大量推理路径，并根据真实答案获取奖励以微调模型。实验表明，ReFT在多个数据集上显著优于SFT（Supervised Fine-Tuning），并且具有卓越的泛化能力。

OpenAI的强化微调功能允许用户在自己的数据集上微调o1模型，利用强化学习算法将模型从高级中学水平提升到专家博士级别。这对于法律、金融、工程、保险等领域尤其有用。例如，OpenAI与汤森路透合作，利用强化微调使o1 Mini成为法律助手，完成了一些复杂、需要深入分析的工作流程。

伯克利实验室的Justin Reese介绍了强化微调在其研究中的帮助，特别是在使用计算方法理解罕见疾病背后的遗传原因方面。通过与OpenAI团队合作，他们训练了o1模型，使其更高效地推理疾病的成因，并在预测可能引发遗传疾病的基因任务上超越了o1。

OpenAI的Alpha计划将使更多人在最重要的任务上推动o1模型能力的边界，强化微调技术将在生物化学、AI安全、法律以及医疗保健等多个领域发挥作用。