别再说国产大模型技术突破要靠 Llama 3 开源了
文章摘要
【关 键 词】 AI评测、Llama 3、国产大模型、性能对比、技术自信
近日,Meta发布了开源大模型Llama 3的8B和70B版本,引起了AI界的广泛关注。Meta声称Llama 3在多种行业基准测试上展现了最先进的性能,并提供了包括改进的推理能力在内的新功能,是目前市场上最好的开源大模型。然而,根据清华大学SuperBench团队的评测,Llama 3在与国产大模型的比较中并未占据优势。
SuperBench团队在《SuperBench大模型综合能力评测报告》的基础上,对Llama 3新发布的两个模型进行了测试,评估了其在语义、代码、对齐、智能体和安全五个评测集的表现。在与全球主流的开源和闭源模型以及国内主流模型的对比中,Llama 3-70B在各项评测中均未能超越GPT-4系列模型和Claude-3等国际一流模型。在语义和代码评测中,Llama 3-70B与榜首的差距最大,而在智能体评测中表现最佳,排名第5。尽管Llama 3-70B在五项评测中超过了大多数国内模型,但仍败给了GLM-4和文心一言。
SuperBench大模型综合能力评测框架由清华大学基础模型研究中心联合中关村实验室发布,旨在提供客观、科学的评测标准,让外界对国产大模型的真正实力有更清晰的认知。当前,大模型领域的基准测试排名因数据污染和基准泄露而受到质疑,许多大模型通过刷榜来宣传自己,但实际性能表现往往差强人意。
SuperBench团队的评测结果显示,国产大模型GLM-4和文心一言已经达到了Llama 3的实力,甚至在某些方面超过了Llama 3。这表明国产大模型在经过一年的追赶后,与GPT-4的差距正在不断缩小。这一结果也打破了一些技术不自信的论调,证明了国产大模型的竞争力。
在语义测评中,Llama 3-70B整体排名第6,落后于Claude-3、GPT-4系列模型以及GLM-4和文心一言。在代码评测中,Llama 3-70B排名第7,得分37.1分,低于GPT-4系列模型、Claude-3以及GLM-4、文心一言等国内模型。在中文对齐评测中,Llama 3-70B排名第7,与GPT-4系列模型和Claude-3有较大差距,但与国内其他模型的差距较小。在智能体测评中,Llama 3-70B排名第5,表现不错,但在数据库、知识图谱、网上购物等评测项中与榜首有一定差距。在安全测评中,Llama 3-70B得分86.1分,排名第7,与前面的文心一言4.0、GPT-4系列、GLM-4等模型分数差距不大。
综上所述,尽管Llama 3在某些方面展现了不错的性能,但在与国产大模型的比较中并未占据优势。国产大模型GLM-4和文心一言的表现尤为突出,证明了国产大模型在全球竞争中的地位和潜力。这也为国产大模型的发展提供了信心,表明通过不断的努力和创新,国产大模型有望在未来取得更大的突破。
原文和模型
【原文链接】 阅读原文 [ 4953字 | 20分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★