模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子

AIGC动态13小时前发布 Si-Planet
40 0 0
模型评测不是用来刷榜的,智源要用“辩论赛”的方式找回评测该有的样子

 

文章摘要


【关 键 词】 AI评测多模态大模型智源研究院标准制定

在人工智能国际顶会NeurIPS 2024上,大模型评测成为焦点,7000余篇投稿与之相关。去年,评测榜单因刷榜行为受争议,如C-Eval和SuperCLUE。评测大模型比构建更难,挑战随模型能力增强而增大,导致能负担评测的机构减少,评测热度有所下降。智源研究院坚持进行模型评测,发布100余个大模型评测榜单,并举办大模型辩论表演赛。

智源的评测聚焦模型能力,舍弃基础语言模型评测,转向对话模型榜单。视觉语言多模态模型评测显示,OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028领先。文生图多模态模型评测中,腾讯Hunyuan Image位列第一。语音语言模型评测中,阿里巴巴Qwen2-Audio位居第一。智源在多种模态评测上拓展,覆盖文本、语音、图片、视频理解与生成,领先国内外。

智源的大模型角斗场FlagEval提供模型对战评测服务,涵盖约40款国内外顶尖大模型,包括文生视频模型。FlagEval支持四大核心任务的自定义评测,采用匿名对战机制和主观倾向阶梯评分体系。智源探索基于对战模式下的高级能力评测,推出模型辩论平台FlagEval Debate,深入甄别语言模型能力差异。

智源评测发现,文生视频多模态模型画质提升,动态性增强,但存在动作变形等问题。智源试图组织统一标准,作为IEEE国际标准大模型评测的组长单位,联合厂商制定标准。智源认为细分模型能力对选型和优化至关重要,投入资源实践。智源研究院副院长林咏华强调统一标准的重要性,以避免重复性工作。

智源对GenAI趋势有独到见解,认为大模型发展聚焦综合能力提升与实际应用,多模态模型发展迅猛,语言模型相对放缓。智源发现,新开源模型厂商减少,更多厂商倾向应用落地,端侧模型发展,多模态模型需求增长,国内头部多模态模型文生视频能力提升,语言模型发展进入深水区,文生图多模态模型中文文字生成能力增强,语音语言模型能力提升但与专家模型有差距,视频数据未被充分利用。智源不同意预训练停滞观点,认为各厂商将有对标产品,评测智能体将从应用角度出发,重点不同于模型评测。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3924字 | 16分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...