谁才是最强的?清华给海内外知名大模型做了场综合能力评测

AI-Agent5个月前更新 almosthuman2014
600 0 0
谁才是最强的?清华给海内外知名大模型做了场综合能力评测

 

文章摘要


【关 键 词】 AI评测模型比较语义理解智能体安全评测

在2023年的“百模大战”中,众多实践者推出了各类模型,包括原创和针对开源模型的微调模型,以及通用和行业特定的模型。为了合理评价这些模型的能力,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架。2024年3月发布的《SuperBench大模型综合能力评测报告》对14个具有代表性的模型进行了测试,包括闭源模型的API和网页调用模式。

报告的主要结论包括:GPT-4系列Claude-3等国外模型在多个能力上处于领先地位,而国内头部大模型GLM-4文心一言4.0与国际一流模型水平接近,差距逐渐缩小。在语义理解智能体两项能力评测中,Claude-3获得榜首。国内大模型在代码编写和智能体能力上与国际一流模型有较大差距,但仍需努力。

大模型能力评测经历了五个阶段:2018-2021年的语义评测阶段,2021-2023年的代码评测阶段,2022-2023年的对齐评测阶段,2023-2024年的智能体评测阶段,以及2023年至今的安全评测阶段。SuperBench评测体系包含语义、代码、对齐、智能体和安全五个评测大类,共28个子类。

在语义评测中,使用ExtremeGLUE高难度集合Claude-3得分最高,国内模型GLM-4文心一言4.0表现亮眼。在代码评测中,GPT-4系列Claude-3在代码通过率上领先,但所有模型的一次通过率仅约50%。对齐评测使用AlignBenchGPT-4网页版文心一言4.0紧随其后。智能体评测使用AgentBenchClaude-3GPT-4系列模型表现突出,国内模型整体落后。安全评测使用SafetyBench文心一言4.0在安全能力评测中得分最高。

总体来看,国内外大模型在多个能力上存在差距,国内模型在部分领域表现亮眼,但仍需在代码编写和智能体能力上加强。安全评测成为未来AI可持续发展的关键问题。

原文和模型


【原文链接】 阅读原文 [ 5263字 | 22分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...