满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

1,690 0 0

文章摘要

OpenAI近日宣布了其最新人工智能模型o1的全面上线，该模型结合了多模态能力和新的推理范式，相较于之前的版本在速度和智能上都有显著提升。o1在编码、数学和写作任务中表现出色，特别是在数学性能上提升了近30%，代码能力提升了27%。此外，o1在GPQA Diamond基准测试中超越了人类专家的表现。所有ChatGPT Plus用户现已可以使用o1，而o1 Pro Mode则进一步提升了数学性能和博士级别科学问题的处理能力。

o1模型能够处理图像输入，进行推理并给出详细回复，如根据人工鸟巢图像生成安装手册。在Worst of 4基准评估中，o1 Pro在数学、代码和博士级别科学问题上均展现出最优性能。OpenAI正在将o1模型引入API，并为开发者提供新功能，如结构化输出和API图像理解功能。

同时，OpenAI推出了ChatGPT Pro，每月订阅费用为200美元，提供无限制的模型访问和更智能的模式。o1模型的训练包括公共数据、专有数据和自定义数据集，通过强化学习训练以进行复杂推理。o1在安全性推理能力上也有重大突破，能有效地址非法建议的生成、拒绝刻板印象的响应等。

o1系列模型的安全性评估显示，其在多个安全基准测试中表现卓越，包括有效地址非法建议的生成、拒绝刻板印象的响应、低于已知的模型越狱攻击等。OpenAI采取了多层次的风险管理策略，包括稳健的对齐方法、广泛的压力测试和细致的风险管理协议。

此外，o1在多语言性能、SWE-bench和MLE-bench评估中也展现出强大的能力。o1和o1-preview在多语言能力上优于GPT-4o，而o1-mini的表现优于GPT-4o-mini。在SWE-bench Verified测试中，o1系列模型展现出解决实际软件工程问题的能力，而MLE-bench评估则显示o1在Kaggle挑战中至少比GPT-4o高出6%。

OpenAI还计划在接下来的12个工作日内发布或演示新开发的技术，o1的发布仅是开始。随着o1的上线，OpenAI还发布了一份49页的技术报告，详细介绍了o1的技术细节和评估结果。