
文章摘要
【关 键 词】 评测基准、大模型评测、学科覆盖、人机协作、模型性能
字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科,包含26529道专业题目,构建过程涉及近百位学界学者及业界工程师的协作,耗时半年完成。相较于传统基准MMLU和GPQA仅覆盖不足50个学科的现状,SuperGPQA首次实现全学科覆盖,将图书馆学、植物学等长尾领域纳入评估范围。
评测体系设计直击行业三大痛点:学科覆盖不全、题目质量存疑和评测维度单一。研究显示,传统基准中42%的问题来自维基百科等公开资源,导致GPT-4o等模型对在线答案的重复率高达67.3%。SuperGPQA通过专家筛选教科书和权威练习网站的原始问题,结合三重质检机制,确保题目的专业深度和抗数据污染能力。每个问题平均设置9.67个选项,远超传统4选项格式的挑战性,且42.33%的题目需要数学计算或严谨推理。
构建流程采用专家主导的人机协作系统,包含来源筛选、转录和质量检测三个阶段。在质量检测环节,团队运用多模型协同验证机制,通过规则过滤、LLM质量检测和专家复审的组合方案,将无效题目比例从传统方法的63%降低至8.7%。转录阶段特别强调干扰项设计,由专家重写所有选项以提升迷惑性,避免大模型通过语义模式匹配“走捷径”。
实验数据揭示当前大模型的性能瓶颈。在涵盖51个主流模型的横向评测中,DeepSeek-R1以61.82%准确率居首,但仍显著低于人类研究生平均85%的水平。研究发现指令微调可使模型性能提升40%以上,如DeepSeek-V3经微调后准确率从32.14%跃升至47.40%。学科表现呈现明显差异,STEM领域最优模型准确率达75%,而人文社科领域普遍低于50%。
该基准的推出推动行业评估标准升级,暴露现有模型的真实能力边界。数据显示,传统基准上表现接近的模型在SuperGPQA中呈现最大38.6%的准确率差异,证明其具备更强的模型区分能力。开源社区反馈表明,这种细粒度评估有助于开发者精准定位模型弱点,特别是在跨学科知识整合和复杂逻辑推理方面。随着评测体系革新,大模型研发或将进入以专业深度为导向的新阶段。
原文和模型
【原文链接】 阅读原文 [ 2326字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★