OpenAI的强化微调:RL+Science 创造新神还是灭霸?
文章摘要
【关 键 词】 Reinforcement Finetuning、RLHF、AI for Science、决策问题、数据集共享
2024年12月6日,OpenAI发布了一种新的Reinforcement Finetuning(RFT)方法,旨在构建专家模型以解决特定领域的决策问题,如医疗诊断和罕见病诊断。该方法通过上传少量训练案例(几十到几千条)进行微调,以找到最优决策。RFT技术基于Reinforcement learning from human feedback (RLHF),这是一种广泛用于对齐大模型与人类偏好性数据的方法。RLHF通过训练数据形式(问题,回答1,回答2,偏好)让用户选择更喜欢的回答,学习人类偏好,并训练奖励模型。随后,使用强化学习算法(如PPO, DPO)微调模型参数,使模型更易生成用户喜欢的内容。
在求解数学和编程问题时,RFT可以利用MCTS等RL方法生成大量不同的求解轨迹,并通过正确轨迹进行SFT或使用正确与错误解法组合进行RLHF。RFT的核心在于如何定义RL中的状态转换,即一步的思维推理。每一步状态转换基于大模型已学到的科学常识,再用RL找到通向高分的完整链路。关键挑战在于如何在token-level和full-response level RL之间找到平衡点,即如何描述“state”。
RFT的Demo展示了技术现阶段的局限性,尤其是在罕见病排查方面。罕见病诊断通常有清晰的基因指标和相对流程化的判别路径,因此可以使用少量数据学会诊断过程。这类问题本质上是多项选择题,只要选项有限且区分度大,就很容易掌握。
然而,真正的科学问题往往不是有固定选项的选择题,没有标准答案。如何定义行动、如何提问、如何给新的科学概念定义和命名,才是最具挑战性的科学难题。科学数据也往往是嘈杂的,不是简单的多选题,没有清晰的决策树。
OpenAI同时推出了一个强化微调研究项目,邀请全球科研人员提供他们领域的决策数据集,以测试其RFT推理决策能力并不断进化。这一项目引发了对AI for Science技术安全性、可控性和可追踪性的担忧。如果科学数据集中在单一非开源公司手中,可能会引发新的风险。
原文和模型
【原文链接】 阅读原文 [ 1442字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆