
文章摘要
【关 键 词】 编程竞赛、大模型、算法题、推理模式、比赛结果
第十届中国大学生程序设计竞赛(CCPC)的决赛中,字节 Seed 作为赞助商,携 Seed-Thinking 非正式参与了比赛,但结果令人意外,Seed-Thinking 仅完成了一道签到题。比赛题目数量通常在 10~13 题之间,具体题目信息尚未公布。其他参赛模型如 o3/o4、Gemini 2.5 pro 和 DeepSeek R1 的表现也较为一般,分别完成了一道或零道题目。根据参赛选手的描述,C 题和 G 题相对简单,属于“签到题”范畴。OpenAI、谷歌、DeepSeek 等大模型的参赛成绩同样低于预期。
有可靠消息表明,出题人并没有专门出题要让大模型做不出来。字节 Seed 团队的参赛方式是完全由模型自主解题,人类不参与任何一道题的思考,现场的三位参赛人员仅担任“驾驶员 + 修理工”的角色。尽管赛前评估显示 CCPC-final 的难度较高,但模型的表现仍然未能达到预期。比赛过程中,场外人员不断刷新榜单,但直到封榜时,模型仍未完成任何一题。最终,场上的同事判断出最易的题目,保住了 AI 的最后一点面子。
字节 Seed 团队测试了来自四家公司的模型,包括 Seed-Thinking、o3、o4-mini、Gemini 2.5 Pro 和 DeepSeek R1。这些模型在架构上各有特点,但在 CCPC final 比赛中的表现并未显示出特别大的差异。Seed-Thinking-v1.5 采用 MoE 架构,整合了 STEM 问题、代码任务、逻辑推理和非推理数据;o3 采用“推理专用架构”,专注于解决复杂问题;o4-mini 基于“效率优化架构”,通过量化技术和动态算力分配提升处理速度;Gemini 2.5 Pro 支持多模态输入和百万 Token 上下文窗口;DeepSeek R1 直接将强化学习应用于基础模型,无需依赖监督微调。
这其实说明大模型在做算法题上其实是很有短板的。OpenAI 在今年 2 月发布的论文中,o3 在 IOI 2024 国际信息学奥林匹克竞赛中取得了金牌成就,但字节的这次比赛是非 agentic 的,即模型不能使用工具来运行自己的代码并修改代码。算法题通常需要独特的创意和做法,这与模型见过的任何题目或组合都不同,因此模型难以做好。此外,用学历来衡量大模型在算法题领域的能力并不合理,因为最厉害的选手通常是高中生,而非博士生。
在 4 月份的基准测试中,微软首席软件工程师 Alex Svetkin 对 Anthropic、DeepSeek、Google、xAI、OpenAI 的 7 个大模型进行了两组 LeetCode 算法题的测试。结果显示,所有模型在经典题目上的通过率都非常高,但在“未见过”的题目上,通过率显著降低,尤其在中等和困难题上更为明显。启用了“推理”或“思考”模式的模型在各个难度级别的题目上表现更好,但具体的提升幅度因模型而异。o3-mini 是专门为解决竞赛编程问题而训练的模型,在所有启用“推理”模式的模型中表现最佳。
所有启用了“推理”模式的模型在性能上都明显优于其基础版本。这些模型已经能够解决相当比例的中等和困难题目,但具体的表现高度依赖于 token 预算、推理延迟与使用成本。总体而言,大模型在算法题领域的表现仍有待提升,尤其是在面对新型和复杂题目时,模型的推理能力和自主解题能力仍需进一步优化。
原文和模型
【原文链接】 阅读原文 [ 2302字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★