标签:标准制定

模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子

在人工智能国际顶会NeurIPS 2024上,大模型评测成为焦点,7000余篇投稿与之相关。去年,评测榜单因刷榜行为受争议,如C-Eval和SuperCLUE。评测大模型比构建更...