超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛超越99.8%选手

AI-Agent3天前发布 AIera
63 0 0
超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛超越99.8%选手

 

文章摘要


【关 键 词】 AI编程天文数据CodeforcesLLM性能自我提升

在新智元报道中,加州大学欧文分校(UCI)的物理学博士Kyle Kabasares对OpenAI的o1模型进行了测试,结果令人震惊。Kabasares发现,他花费一年时间编写的博士论文代码,o1模型仅用一个小时就能完成。在经过大约六次提示后,o1模型创建了一个运行版本的Python代码,虽然使用的是合成数据而非真实的天文数据,但其代码框架模拟了Kabasares实际代码的功能。

Kabasares的博士论文发表在“天文物理期刊”上,主要内容是通过对天文数据建模来测量黑洞质量。他在2018年7月至2019年4月期间,投入大量时间使代码初版正确运行。o1模型在1小时内给出的可运行Python代码,虽然与Kabasares的1100行代码有较大不同,但被认为是论文代码的“最简版本”。

此外,Kabasares还进行了另一项测试,他从办公室获取了由教授设计的天体物理学问题,这些问题在博士期间完成且未发布到互联网上。o1模型在没有训练数据的情况下,对这些问题的解答速度非常快,有的题目仅用16秒就完成了解答。

Codeforces编程比赛中,o1模型的表现也引起了广泛关注。一位名为AryanDLuffy的选手使用o1-mini模型参赛,达到了接近大师级别的表现。在超过16万参赛者中,AryanDLuffy的排名为277,即前0.17%,这一成绩远远超过了OpenAI自己的基准测试结果。

然而,Codeforces的主办方对此表示担忧,并制定了新规,禁止使用各种模型来解决竞赛中的编程问题,但允许模型辅助翻译问题陈述或提供语法帮助。竞赛问题的核心逻辑、算法以及bug的诊断调试必须由人类选手独立完成。

陶哲轩也对o1模型进行了测试,他发现模型在语义搜索方面表现出色,能够提供全面且完美的答案。但在创造性策略方面,模型的表现仍有待提高。

关于o1模型的运作机制,有多篇论文进行了阐述。其中,DeepMind的论文提出了让LLM进行更多的“测试时计算”,这对于构建能在开放语境下操作、能实现自我提升的agent是关键的一步。其他论文则探讨了通过训练/RLHF提升LLM在复杂任务上的推理性能。

最后,Jim Fan在分析帖中指出,o1模型的关键见解是训练时和推理时的scaling law的并行发展,而推理时的scaling law是战胜收益递减的关键因素。他还提到了两篇论文,探讨了LLM的自我提升能力,但指出除非引入外部驱动信号,否则评论家和行动者之间不存在可持续的能力差距。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3945字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...