谁才是最强的？清华给海内外知名大模型做了场综合能力评测

AI-Agent1年前 (2024)更新 almosthuman2014

2,581 0 0

文章摘要

在2023年的“百模大战”中，众多实践者推出了各类模型，包括原创和针对开源模型的微调模型，以及通用和行业特定的模型。为了合理评价这些模型的能力，清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架。2024年3月发布的《SuperBench大模型综合能力评测报告》对14个具有代表性的模型进行了测试，包括闭源模型的API和网页调用模式。

报告的主要结论包括：GPT-4系列和Claude-3等国外模型在多个能力上处于领先地位，而国内头部大模型GLM-4和文心一言4.0与国际一流模型水平接近，差距逐渐缩小。在语义理解和智能体两项能力评测中，Claude-3获得榜首。国内大模型在代码编写和智能体能力上与国际一流模型有较大差距，但仍需努力。

大模型能力评测经历了五个阶段：2018-2021年的语义评测阶段，2021-2023年的代码评测阶段，2022-2023年的对齐评测阶段，2023-2024年的智能体评测阶段，以及2023年至今的安全评测阶段。SuperBench评测体系包含语义、代码、对齐、智能体和安全五个评测大类，共28个子类。

在语义评测中，使用ExtremeGLUE高难度集合，Claude-3得分最高，国内模型GLM-4和文心一言4.0表现亮眼。在代码评测中，GPT-4系列和Claude-3在代码通过率上领先，但所有模型的一次通过率仅约50%。对齐评测使用AlignBench，GPT-4网页版和文心一言4.0紧随其后。智能体评测使用AgentBench，Claude-3和GPT-4系列模型表现突出，国内模型整体落后。安全评测使用SafetyBench，文心一言4.0在安全能力评测中得分最高。