LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

1,939 0 0

文章摘要

新智元报道指出，强化微调（RLF）技术可能在强化学习领域引发一场变革。Yann LeCun曾将智能比作蛋糕，其中无监督学习是主体，有监督学习是糖霜，而强化学习则是樱桃。这一比喻在大型语言模型的发展中得到了验证，自监督学习占据了大部分训练时间，随后是监督微调，最后是强化学习，以提高模型的安全性。

OpenAI宣布将开放强化微调的API，允许开发者通过提供少量高质量样本来定制领域专家模型，这突显了强化学习的重要性。强化微调的核心在于“匹配答案”，通过给定查询和正确答案，帮助模型学习如何获得正确答案。与标准的指令调优相比，强化微调通过对少量数据点进行多次训练，使模型有时间学习新行为。

OpenAI的这一举措表明，强化学习的稳定性问题已得到解决。以往，研究人员需要运行多个随机种子以选择稳定的模型，而现在可以依赖强化学习模型的稳定运行。此外，强化微调与AI2发布的具有可验证奖励的强化学习（RLVR）工作相似，表明开源社区可能已经存在类似的技术。

OpenAI的o1模型可能使用了大规模RL数据进行训练，具有可验证的输出。通过API上传数据，OpenAI可以积累海量数据集来训练o1模型的下一个版本。这将使o1模型更加强大，尤其是在适用领域缺乏多样性的情况下。

强化微调的实现依赖于正确界定环境范围，包括转移函数和奖励函数。语言模型的转移函数是人为设计的，而奖励函数是从状态和动作到奖励标量值的映射。评分器可以根据预定义的结构对模型回复进行评分，以获得精确率、召回率等指标。

在数据效率方面，OpenAI提到用户只需要几十个RFT样本就可以在新领域进行学习。强化学习可以根据超参数设置在一批中生成多个评分回复，通过多次迭代进行重复训练，使模型能够尝试不同的策略来找到正确答案。

最后，强化学习更适合微调而不是从头开始训练。基础强化学习工作已在控制和决策方面证明了这一点。凭借稳定的基础，强化学习微调可以温和地搜索更好的行为表达，而不会显著改变模型性能。对于OpenAI来说，o1模型经过大规模训练，应该已经极其稳定，可以作为强化学习微调的基础。

原文和模型

【原文链接】 阅读原文 [ 2089字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # 强化学习 # 技术变革 # 数据效率 # 智能模型 # 模型微调

文章版权归作者所有，未经允许请勿转载。

OpenAI o1模型问世，五级AGI再突破！推理极限超博士，清北复旦华人立功

新智元

2,529

清华大学刘知远详解DeepSeek：OpenAI引爆o1藏秘方，但R1造出原子弹也能公开方法｜钛媒体AGI

钛媒体AGI

1,622

对话超参数：Agent 诞生于游戏，最终会走进生活

极客公园

1,914

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

机器之心

884

人形机器人的三种死法

admin

1,396

揭秘 OpenR：首个类 o1 开源推理框架，增强大型语言模型复杂推理能力

AI科技评论

2,193

暂无评论

暂无评论...

LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

文章摘要

原文和模型

百川新模型超GPT-4o近20%，首创自约束训练方案突破瓶颈，主打「领域增强」

百川智能发布金融大模型 Baichuan4-Finance，整体准确率领先GPT-4o近20%

相关文章

暂无评论

热门网址

热门文章

LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

文章摘要

原文和模型

百川新模型超GPT-4o近20%，首创自约束训练方案突破瓶颈，主打「领域增强」

百川智能发布金融大模型 Baichuan4-Finance，整体准确率领先GPT-4o近20%

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章