DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

28 0 0

文章摘要

【关键词】 DeepSeek、LiveCodeBench、AIME测试、国产AI、OpenAI

DeepSeek版o1，即DeepSeek-R1-Preview，尚未正式发布，已在LiveCodeBench代码基准测试中表现出色，位列前三，与OpenAI o1的中档推理设置相当。这一版本是DeepSeek-R1-Lite-Preview的升级，使用了更大规模的基础模型。LiveCodeBench团队与DeepSeek合作，评估新模型的能力，并在合作过程中解决了评分系统的一些bug。DeepSeek-R1-Preview的思考过程也被展示出来，引发了网友对开源模型和API的期待。

DeepSeek-R1-Lite-Preview使用强化学习训练，推理包含大量反思和验证，遵循新的Scaling Laws，即推理越长，表现越强。在AIME测试基准中，随着推理长度的增加，DeepSeek-R1-Lite-Preview表现出稳定的得分提升。在某些情况下，模型似乎能够在生成推理步骤时自我纠正，表现出类似原生“自我反思”的能力。

LiveCodeBench由UC伯克利、MIT和康奈尔大学团队推出，旨在对大模型的代码能力进行全面且无污染的评估。测试方法实时更新，确保公平性和可靠性，获得了开发者社区的认可。

春节前，多个国产大模型团队更新了自家模型，包括MiniMax开源4M超长上下文新模型、国产AI开源端侧GPT-4o、讯飞版o1以及阿里开源首个视觉推理模型。OpenAI似乎也在假期期间有所动作，o3-mini完成外部合作测试，已确定最终版，将在几周内推出，会同时上线API和ChatGPT。未来模型的基本情况也得到了确认，包括o3-mini的速度、性能、收费情况以及OpenAI对AI一次性输出更多内容的关注，以及2025年计划将GPT系列和o系列合并。