文章摘要
【关 键 词】 AI编程、天文数据、Codeforces、LLM性能、自我提升
在新智元报道中,加州大学欧文分校(UCI)的物理学博士Kyle Kabasares对OpenAI的o1模型进行了测试,结果令人震惊。Kabasares发现,他花费一年时间编写的博士论文代码,o1模型仅用一个小时就能完成。在经过大约六次提示后,o1模型创建了一个运行版本的Python代码,虽然使用的是合成数据而非真实的天文数据,但其代码框架模拟了Kabasares实际代码的功能。
Kabasares的博士论文发表在“天文物理期刊”上,主要内容是通过对天文数据建模来测量黑洞质量。他在2018年7月至2019年4月期间,投入大量时间使代码初版正确运行。o1模型在1小时内给出的可运行Python代码,虽然与Kabasares的1100行代码有较大不同,但被认为是论文代码的“最简版本”。
此外,Kabasares还进行了另一项测试,他从办公室获取了由教授设计的天体物理学问题,这些问题在博士期间完成且未发布到互联网上。o1模型在没有训练数据的情况下,对这些问题的解答速度非常快,有的题目仅用16秒就完成了解答。
在Codeforces编程比赛中,o1模型的表现也引起了广泛关注。一位名为AryanDLuffy的选手使用o1-mini模型参赛,达到了接近大师级别的表现。在超过16万参赛者中,AryanDLuffy的排名为277,即前0.17%,这一成绩远远超过了OpenAI自己的基准测试结果。
然而,Codeforces的主办方对此表示担忧,并制定了新规,禁止使用各种模型来解决竞赛中的编程问题,但允许模型辅助翻译问题陈述或提供语法帮助。竞赛问题的核心逻辑、算法以及bug的诊断调试必须由人类选手独立完成。
陶哲轩也对o1模型进行了测试,他发现模型在语义搜索方面表现出色,能够提供全面且完美的答案。但在创造性策略方面,模型的表现仍有待提高。
关于o1模型的运作机制,有多篇论文进行了阐述。其中,DeepMind的论文提出了让LLM进行更多的“测试时计算”,这对于构建能在开放语境下操作、能实现自我提升的agent是关键的一步。其他论文则探讨了通过训练/RLHF提升LLM在复杂任务上的推理性能。
最后,Jim Fan在分析帖中指出,o1模型的关键见解是训练时和推理时的scaling law的并行发展,而推理时的scaling law是战胜收益递减的关键因素。他还提到了两篇论文,探讨了LLM的自我提升能力,但指出除非引入外部驱动信号,否则评论家和行动者之间不存在可持续的能力差距。
原文和模型
【原文链接】 阅读原文 [ 3945字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★