刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

AIGC动态1年前 (2024)发布 almosthuman2014

4,370 0 0

文章摘要

OpenAI在9月13日宣布了其最新AI大模型系列的发布，这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题，能够执行复杂推理，超越了以往科学、代码和数学模型的能力。o1-preview作为该系列的首款模型，其通用推理能力在多个高难度基准测试中表现出色，甚至在某些领域超越了人类专家。

o1模型的特点在于其能够进行真正的强化学习，这是大模型领域的一个重要突破。它在大模型规模扩展与性能提升方面取得了显著进步，类似于AlphaGo在强化学习上的成功。Cognition AI与OpenAI合作，使用Devin评估o1的推理能力，发现其在处理代码方面相比GPT-4o有显著提升。

在实际应用中，o1模型使ChatGPT能够像人类一样在回答问题前进行深思熟虑，从而解决了之前无法解决的问题。用户体验方面，虽然在简单提示下差异不大，但在处理复杂数学或代码问题时，o1的优势开始显现。

技术层面，o1模型通过强化学习训练，能够在响应用户前产生一个长的内部思维链，类似于人类的思考过程。在物理、化学和生物学等挑战性基准任务上，o1的表现与博士生相似，数学和编码方面也表现出色。在国际数学奥林匹克资格考试中，o1的表现远超GPT-4o。

评估方面，o1在多个人类考试和机器学习基准测试中的表现均优于GPT-4o。在AIME考试中，o1的表现甚至可以跻身全美前500名。此外，o1在GPQA Diamond基准上超越了人类专家的表现，成为首个在该基准测试中做到这一点的模型。

o1模型还展示了其编程能力，经过专门训练后，在国际信息学奥林匹克竞赛（IOI）赛题上得到了高分。在Codeforces竞赛中，o1的Elo评分远超过GPT-4o，表现优于93%的竞争对手。

在人类偏好评估中，o1在数据分析、编程和数学等推理能力较强的类别中更受欢迎。安全方面，o1的思维链推理为安全和对齐提供了新的思路，有助于提高模型的稳健性。

OpenAI还发布了o1-mini，这是一个成本效率更高的模型，特别擅长编程。o1-mini在STEM推理任务上表现良好，但在需要非STEM事实知识的任务上表现较差。尽管如此，o1-mini在成本和速度上提供了更好的平衡。

目前，ChatGPT Plus和Team用户可以在ChatGPT中使用o1模型，但使用量有限。企业版和教育版用户以及API用户也将能够使用这些模型，但同样受到一定的限制。OpenAI计划在未来增加更多功能，如网络浏览、文件和图像上传，以提升模型的实用性。同时，OpenAI将继续开发GPT系列模型，以推动AI技术的发展。