标签：标准制定

模型评测不是用来刷榜的，智源要用“辩论赛”的方式找回评测该有的样子

在人工智能国际顶会NeurIPS 2024上，大模型评测成为焦点，7000余篇投稿与之相关。去年，评测榜单因刷榜行为受争议，如C-Eval和SuperCLUE。评测大模型比构建更...

AIGC动态

8个月前