国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队

AIGC动态8个月前发布 AIera
896 0 0
国内百模谁第一?清华14大LLM最新评测报告出炉,GLM-4、文心4.0站在第一梯队

 

文章摘要


【关 键 词】 大模型评测SuperBench语义评测代码评测智能体评测

在2023年的”百模大战”中,众多实践者推出了各类模型,包括原创和针对开源模型微调的模型,以及通用和行业特定的模型。为了合理评价这些模型的能力,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。2024年3月版《SuperBench大模型综合能力评测报告》正式发布,共包含了14个海内外具有代表性的模型。

评测结果显示,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,而国内头部大模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距逐渐缩小。SuperBench评测体系包含语义、代码、对齐、智能体和安全等五个评测大类,28个子类。

语义评测方面,Claude-3得分为76.7,位居第一;国内模型GLM-4和文心一言4.0超过GPT-4系列模型位居第二和第三位。在代码评测方面,GPT-4系列模型和Claude-3模型在代码通过率上明显领先,国内模型中GLM-4和文心一言4.0表现突出。在对齐评测方面,GPT-4网页版占据榜首,文心一言4.0和GPT-4 Turbo同分紧随其后,GLM-4位列第四。在智能体评测方面,Claude-3和GPT-4系列模型占据了前三甲,GLM-4在国内外模型中表现最好。在安全评测方面,文心一言4.0表现亮眼,力压GPT-4系列模型和Claude-3拿下最高分。

总体来说,国内外大模型在本能力下均表现欠佳,主要原因是智能体对模型要求远高于其他任务,现有的绝大部分模型还不具有很强的智能体能力。随着大模型研究的发展,对其性能重点的研究也在不断迁移,从语义评测到代码评测,再到对齐评测、智能体评测,以及未来的安全评测阶段,这些都是大模型能力评测的重要阶段。

原文和模型


【原文链接】 阅读原文 [ 5238字 | 21分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...