文章摘要
【关 键 词】 大模型评测、多模态发展、语言模型、金融量化、评测体系
智源研究院于2024年12月19日发布了下半年大模型综合评测结果,涉及100余个开源和商业闭源模型,覆盖文本、语音、图像和视频等多个领域。此次评测在5月的基础上扩展了任务解决能力内涵,新增数据处理、高级编程和工具调用等能力,并首次增加了金融量化交易场景的应用能力评估和基于模型辩论的对比评估方式。
评测结果显示,大模型发展更聚焦于综合能力提升与实际应用,多模态模型发展迅速,而语言模型发展相对放缓。在语言模型方面,国内头部模型在复杂场景任务的表现与国际一流水平存在差距。视觉语言多模态模型中,开源模型架构趋同,但表现不一,头部闭源模型在图文理解任务上能力较强。文生图多模态模型在中文文字生成能力上有所提升,但在复杂场景人物变形和中国文化理解上仍面临挑战。文生视频多模态模型在画质和动态性上有所提升,但在大幅度动作变形和物理规律理解上存在不足。语音语言模型得益于文本大模型的进步,能力提升巨大,但在具体任务上与专家模型存在差距。
智源研究院还联合海淀区教师进修学校新编了K12全学段、多学科试卷,考察大模型与人类学生的能力差异。模型在K12学科测验综合得分相较于半年前提升了12.86%,但在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分。FlagEval大模型角斗场覆盖国内外约50款大模型,支持四大任务的自定义在线或离线盲测。评测发现,用户对模型的响应时间有更高要求,对模型输出的内容倾向于更结构化、标准化的格式。
智源研究院推出的模型辩论平台FlagEval Debate对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估。评测发现,大模型普遍缺乏辩论框架意识,存在“幻觉问题”,更擅长反驳。金融量化交易评测结果显示,大模型已经具备生成有回撤收益的策略代码的能力,头部模型能力已接近初级量化交易员的水平。
智源评测体系FlagEval覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集。为规避数据集泄露风险以及数据集饱和度问题,本次评测吸纳了近期发布的数据集并持续动态更新评测数据,替换了98%的题目,并提升了题目的难度。智源研究院副院长兼总工程师林咏华表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系,以评测为标尺感知大模型的发展趋势。
原文和模型
【原文链接】 阅读原文 [ 2267字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★