刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
文章摘要
【关 键 词】 AI大模型、强化学习、推理能力、编程能力、模型安全
OpenAI在9月13日宣布了其最新AI大模型系列的发布,这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题,能够执行复杂推理,超越了以往科学、代码和数学模型的能力。o1-preview作为该系列的首款模型,其通用推理能力在多个高难度基准测试中表现出色,甚至在某些领域超越了人类专家。
o1模型的特点在于其能够进行真正的强化学习,这是大模型领域的一个重要突破。它在大模型规模扩展与性能提升方面取得了显著进步,类似于AlphaGo在强化学习上的成功。Cognition AI与OpenAI合作,使用Devin评估o1的推理能力,发现其在处理代码方面相比GPT-4o有显著提升。
在实际应用中,o1模型使ChatGPT能够像人类一样在回答问题前进行深思熟虑,从而解决了之前无法解决的问题。用户体验方面,虽然在简单提示下差异不大,但在处理复杂数学或代码问题时,o1的优势开始显现。
技术层面,o1模型通过强化学习训练,能够在响应用户前产生一个长的内部思维链,类似于人类的思考过程。在物理、化学和生物学等挑战性基准任务上,o1的表现与博士生相似,数学和编码方面也表现出色。在国际数学奥林匹克资格考试中,o1的表现远超GPT-4o。
评估方面,o1在多个人类考试和机器学习基准测试中的表现均优于GPT-4o。在AIME考试中,o1的表现甚至可以跻身全美前500名。此外,o1在GPQA Diamond基准上超越了人类专家的表现,成为首个在该基准测试中做到这一点的模型。
o1模型还展示了其编程能力,经过专门训练后,在国际信息学奥林匹克竞赛(IOI)赛题上得到了高分。在Codeforces竞赛中,o1的Elo评分远超过GPT-4o,表现优于93%的竞争对手。
在人类偏好评估中,o1在数据分析、编程和数学等推理能力较强的类别中更受欢迎。安全方面,o1的思维链推理为安全和对齐提供了新的思路,有助于提高模型的稳健性。
OpenAI还发布了o1-mini,这是一个成本效率更高的模型,特别擅长编程。o1-mini在STEM推理任务上表现良好,但在需要非STEM事实知识的任务上表现较差。尽管如此,o1-mini在成本和速度上提供了更好的平衡。
目前,ChatGPT Plus和Team用户可以在ChatGPT中使用o1模型,但使用量有限。企业版和教育版用户以及API用户也将能够使用这些模型,但同样受到一定的限制。OpenAI计划在未来增加更多功能,如网络浏览、文件和图像上传,以提升模型的实用性。同时,OpenAI将继续开发GPT系列模型,以推动AI技术的发展。
原文和模型
【原文链接】 阅读原文 [ 4547字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★