文章摘要
【关 键 词】 大模型评测、SuperBench、语义评测、代码评测、智能体评测
在2023年的”百模大战”中,众多实践者推出了各类模型,包括原创和针对开源模型微调的模型,以及通用和行业特定的模型。为了合理评价这些模型的能力,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。2024年3月版《SuperBench大模型综合能力评测报告》正式发布,共包含了14个海内外具有代表性的模型。
评测结果显示,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,而国内头部大模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距逐渐缩小。SuperBench评测体系包含语义、代码、对齐、智能体和安全等五个评测大类,28个子类。
在语义评测方面,Claude-3得分为76.7,位居第一;国内模型GLM-4和文心一言4.0超过GPT-4系列模型位居第二和第三位。在代码评测方面,GPT-4系列模型和Claude-3模型在代码通过率上明显领先,国内模型中GLM-4和文心一言4.0表现突出。在对齐评测方面,GPT-4网页版占据榜首,文心一言4.0和GPT-4 Turbo同分紧随其后,GLM-4位列第四。在智能体评测方面,Claude-3和GPT-4系列模型占据了前三甲,GLM-4在国内外模型中表现最好。在安全评测方面,文心一言4.0表现亮眼,力压GPT-4系列模型和Claude-3拿下最高分。
总体来说,国内外大模型在本能力下均表现欠佳,主要原因是智能体对模型要求远高于其他任务,现有的绝大部分模型还不具有很强的智能体能力。随着大模型研究的发展,对其性能重点的研究也在不断迁移,从语义评测到代码评测,再到对齐评测、智能体评测,以及未来的安全评测阶段,这些都是大模型能力评测的重要阶段。
原文和模型
【原文链接】 阅读原文 [ 5238字 | 21分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆