标签:上海 AI Lab

大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午

大模型评测面临着一些挑战,包括评测成本和时间成本高,以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数,这已经成为公开的秘密。此外,评...