Baichuan3中文基准评测出炉！总分77.4分，位列国内第二｜SuperCLUE

AIGC动态2年前 (2024)发布 admin

2,754 0 0

作者信息

【原文作者】 CLUE中文语言理解测评基准
【作者简介】 中文的资源与测评的社区：包括数据集与任务、语料库；对任务的测评、基线模型与工具包；SOTA语言模型、最新NLP趋势等相关资讯与技术。
【微信号】 CLUEbenchmark

文章摘要

【关键词】 百川智能、Baichuan3、大语言模型、技术突破、测评结果

百川智能最近发布了其超千亿参数的大语言模型Baichuan3，该模型在多个英文评测上展现了接近GPT-4的性能，并通过迭代式强化学习技术进一步提升了语义理解和生成能力。本文主要围绕Baichuan3在SuperCLUE中文基准上的全方位测评结果进行讨论。

测评环境与方法

Baichuan3的测评是基于SuperCLUE通用大模型综合性中文测评基准进行的，涵盖了4273道多轮简答题和客观选择题。测评采用了自动化评测方法，并经过人工抽样校验，确保评测结果的准确性。

测评结果

Baichuan3在SuperCLUE综合基准上的总分为77.47分，位列国内第二，显示出其在国内大模型中的领先地位。与GPT系列模型相比，Baichuan3的表现超越了GPT3.5，并且与GPT-4的差距缩小至2.37分，显示出有进一步提升的空间。在各项基础能力上，Baichuan3表现均衡，尤其在计算、逻辑推理、角色扮演、语言理解等方面处于国内领先位置。

定量与定性分析

定量分析显示，Baichuan3相比上一代模型Baichuan2-13B-Chat在各项能力上都有显著提升，特别是计算能力提升最为显著。定性分析通过几个典型示例展示了Baichuan3在计算、逻辑推理、角色扮演等方面的优势，同时也指出了其在某些推理环节稳定性相比GPT4有待提高。

结论

Baichuan3的测评结果显示了其在国内大模型中的领先地位，尤其是在计算、逻辑推理、语言理解等基础能力上的优异表现。虽然与GPT-4等国际顶尖模型相比仍有差距，但Baichuan3已经展现出强大的竞争力和潜力。未来，随着技术的进一步发展和优化，Baichuan3有望在更多领域发挥重要作用。