智源发布FlagEval「百模」评测结果,丈量模型生态变局
文章摘要
【关 键 词】 大模型评测、多模态发展、语言模型、金融量化、评测体系
智源研究院于2024年12月19日发布了对国内外100余个大模型的综合及专项评测结果。此次评测不仅扩展了任务解决能力的内涵,新增了数据处理、高级编程和工具调用等能力与任务,还首次增加了面向真实金融量化交易场景的应用能力评估,以及基于模型辩论的对比评估方式,深入分析模型的逻辑推理、观点理解和语言表达等核心能力。
评测结果显示,2024年下半年大模型发展更注重综合能力提升与实际应用,多模态模型发展迅速,而语言模型发展相对放缓。在语言模型方面,国内头部模型在复杂场景任务的表现与国际一流水平存在差距。视觉语言多模态模型中,开源模型在图文理解任务上正缩小与头部闭源模型的能力差距。文生图多模态模型在中文文字生成能力上有所提升,但在复杂场景人物变形和常识或知识性推理任务上仍有挑战。文生视频多模态模型在画质和动态性上有所提升,但在大幅度动作变形和物理规律理解上存在问题。语音语言模型得益于文本大模型的进步,能力提升巨大,但在具体任务上与专家模型还存在一定差距。
专项评测中,智源研究院联合海淀区教师进修学校新编了K12全学段、多学科试卷,考察大模型与人类学生的能力差异。模型在K12学科测验综合得分相较于半年前提升了12.86%,但在英语和历史文科试题的表现上已有模型超越了人类考生的平均分。FlagEval大模型角斗场覆盖国内外约50款大模型,支持四大任务的自定义在线或离线盲测。模型辩论平台FlagEval Debate对模型的逻辑推理、观点理解和语言表达等核心能力进行深入评估。金融量化交易评测发现,大模型已经具备生成有回撤收益的策略代码的能力。
智源评测体系FlagEval覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集。为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。智源研究院副院长兼总工程师林咏华表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。
原文和模型
【原文链接】 阅读原文 [ 2242字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆