标签:评测基准
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科,包含...
大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午
大模型评测面临着一些挑战,包括评测成本和时间成本高,以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数,这已经成为公开的秘密。此外,评...