
文章摘要
【关 键 词】 大语言模型、推理测试、基准数据集、模型故障、谜题挑战
最新研究利用NPR周日谜题挑战构建的新型基准测试,揭示了当前大语言模型在语言推理任务中的独特表现与局限。该数据集包含近600个涉及字母重组、单词变换等类型的谜题,其特点是题目易于理解但解决难度较高,且每个问题通常仅存在少数明确答案。测试结果显示,OpenAI o1以59%准确率领先,而DeepSeek R1在35%准确率下暴露出显著的特殊故障模式。
研究发现,DeepSeek R1在142个问题中会提前放弃推理,直接输出明知错误的答案或陷入无限思考循环。例如在涉及音节规则的谜题中,该模型提出违反约束的答案“queueing”并自我否定。研究人员指出,这种“放弃”行为包含两种形式:一是生成与推理过程无关的随机答案,二是承认答案不符合题目要求仍强行输出。此外,模型在达到32K token上下文限制时仍无法完成推理,表明其需要改进推理终止机制。
测试数据集的构建过程强调可验证性与文化普适性。团队通过筛选13年节目历史中的题目,剔除多答案问题并补充上下文信息(如电影年份标注),确保评估的客观性。与需要专业知识的GPQA基准不同,该测试更关注通用知识背景下的逻辑推理能力。值得注意的是,OpenAI o1在此类任务中的优势与其在科学问题基准的表现形成反差,暗示不同模型在知识类型处理上的能力差异。
研究还发现推理长度与准确率存在关联:当输出超过1万token后,模型准确率提升趋于停滞。对于DeepSeek R1,其表现约在3000 token时超过Gemini Flash,但后续扩展推理未能带来显著改进。部分案例显示模型虽早期找到正确答案,仍会继续探索错误选项,反映出决策机制的不稳定性。
该研究在技术社区引发广泛讨论。争议焦点集中在测试是否真正评估推理能力,还是依赖文化特定知识的记忆检索。有观点指出,部分题目需要美国本土常识(如品牌名称认知),可能对非英语母语者构成障碍。同时,关于模型训练数据是否包含谜题答案的质疑也被提出。支持者则认为,该基准揭示了传统测试未捕捉到的故障模式,为改进模型推理路径提供了新方向。
原文和模型
【原文链接】 阅读原文 [ 2244字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★