OpenAI的强化微调：RL+Science 创造新神还是灭霸？

AIGC动态9个月前发布 almosthuman2014

800 0 0

文章摘要

【关键词】 Reinforcement Finetuning、RLHF、AI for Science、决策问题、数据集共享

2024年12月6日，OpenAI发布了一种新的Reinforcement Finetuning（RFT）方法，旨在构建专家模型以解决特定领域的决策问题，如医疗诊断和罕见病诊断。该方法通过上传少量训练案例（几十到几千条）进行微调，以找到最优决策。RFT技术基于Reinforcement learning from human feedback (RLHF)，这是一种广泛用于对齐大模型与人类偏好性数据的方法。RLHF通过训练数据形式（问题，回答1，回答2，偏好）让用户选择更喜欢的回答，学习人类偏好，并训练奖励模型。随后，使用强化学习算法（如PPO, DPO）微调模型参数，使模型更易生成用户喜欢的内容。

在求解数学和编程问题时，RFT可以利用MCTS等RL方法生成大量不同的求解轨迹，并通过正确轨迹进行SFT或使用正确与错误解法组合进行RLHF。RFT的核心在于如何定义RL中的状态转换，即一步的思维推理。每一步状态转换基于大模型已学到的科学常识，再用RL找到通向高分的完整链路。关键挑战在于如何在token-level和full-response level RL之间找到平衡点，即如何描述“state”。

RFT的Demo展示了技术现阶段的局限性，尤其是在罕见病排查方面。罕见病诊断通常有清晰的基因指标和相对流程化的判别路径，因此可以使用少量数据学会诊断过程。这类问题本质上是多项选择题，只要选项有限且区分度大，就很容易掌握。

然而，真正的科学问题往往不是有固定选项的选择题，没有标准答案。如何定义行动、如何提问、如何给新的科学概念定义和命名，才是最具挑战性的科学难题。科学数据也往往是嘈杂的，不是简单的多选题，没有清晰的决策树。

OpenAI同时推出了一个强化微调研究项目，邀请全球科研人员提供他们领域的决策数据集，以测试其RFT推理决策能力并不断进化。这一项目引发了对AI for Science技术安全性、可控性和可追踪性的担忧。如果科学数据集中在单一非开源公司手中，可能会引发新的风险。