大语言模型评测是怎么被玩儿烂的？我们跟知情人聊了一个下午

AIGC动态2年前 (2024)发布 Si-Planet

3,714 0 0

作者信息

【原文作者】 硅星人Pro
【作者简介】 硅（Si）是创造未来的基础，欢迎来到这个星球。
【微信号】 Si-Planet

文章摘要

【关键词】 人工智能、大模型、评测基准、CoT Hub、上海 AI Lab

上海人工智能研究室（上海 AI Lab）位于徐汇区云锦路，拥有11幢楼和6000张GPU，成为上海人工智能领域的中心。2023年世界人工智能大会将在此举行，全球30多款大模型将齐聚上海。符尧是CoT Hub的发起者，之前他的工作包括C-Eval，一个标志性的大模型中文能力评测基准。然而，大模型公司如OpenAI和Meta的政策对国内大模型产生了影响。在一些知名的大模型评测基准的榜单上，一些名不见经传的大模型排名靠前，而一些知名大模型则排名靠后。这引发了一些公司对评测基准的质疑，认为刷榜已经成为一种陋习。

大模型评测面临着一些挑战，包括评测成本和时间成本高，以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数，这已经成为公开的秘密。此外，评测基准的设计也存在一些问题，包括对Prompt的敏感度和评测的脆弱性。评测基准的设计需要考虑多种因素，包括解码策略、提示词等。HuggingFace提供了一套全自动的模型能力评测框架，但即使如此，评测也不是完全可靠的，甚至可能出现测试事故。

评测基准的设计需要考虑多种因素，包括解码策略、提示词等。HuggingFace提供了一套全自动的模型能力评测框架，但即使如此，评测也不是完全可靠的，甚至可能出现测试事故。为了解决模型不乱说话的问题，需要一些Prompt的技巧，而CoT Hub在测试后发现，在Claude优化前和优化后能有10%的扰动。评测基准的设计需要考虑多种因素，包括解码策略、提示词等。HuggingFace提供了一套全自动的模型能力评测框架，但即使如此，评测也不是完全可靠的，甚至可能出现测试事故。

大模型评测的最终目标是测量超越人类的智能，但如何用人类设计的评价标准来衡量一种比人类更高级的智能仍然是一个疑问。CoT Hub提供了一种思路，即如何找到一种方式帮助人类去监督大模型的表现，并且让这种监督有足够的扩展性。此外，大模型评测也面临着外部公开的评测基准和大模型公司内部的评测基准之间的差异。最终，用户会用脚投票，评测基准将成为一种被利用的工具而逐渐泡沫化。