文章摘要
【关 键 词】 大模型评测、多模态发展、语言模型、金融量化、评测体系
智源研究院于2024年12月19日发布了国内外100余个大模型的综合及专项评测结果。评测显示,大模型发展更注重综合能力提升与实际应用,多模态模型发展迅速,而语言模型发展相对放缓。在模型开源生态中,出现了新的开源贡献者。语言模型主观评测中,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo分别位居第一、第二。文生视频模型方面,国产玩家领先全球。K12学科测验中,大模型与海淀学生平均水平存在差距,普遍存在“文强理弱”的偏科情况。
智源评测扩展了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务,并首次增加了面向真实金融量化交易场景的应用能力评估,以及基于模型辩论的对比评估方式。评测结果指出,语言模型在一般中文场景的开放式问答或生成任务中能力已趋于饱和稳定,但在复杂场景任务的表现上,国内头部语言模型与国际一流水平存在差距。视觉语言多模态模型中,较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距。文生图多模态模型已具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况。语音语言模型得益于文本大模型的进步,能力提升巨大,但在具体任务上与专家模型还存在一定差距。
专项评测结果显示,大模型在K12学科测验综合得分相较于半年前提升了12.86%,但在英语和历史文科试题的表现上,已有模型超越了人类考生的平均分。FlagEval大模型角斗场覆盖国内外约50款大模型,支持四大任务的自定义在线或离线盲测。模型辩论平台FlagEval Debate对模型的逻辑推理、观点理解以及语言表达等核心能力进行深入评估。金融量化交易评测发现,大模型已经具备生成有回撤收益的策略代码的能力,头部模型能力已接近初级量化交易员的水平。
智源评测体系FlagEval已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集。智源研究院副院长兼总工程师林咏华表示,FlagEval评测体系一直坚守科学、权威、公正、开放的准则,通过技术方法平台持续创新,打造丈量模型能力的标尺,为大模型技术生态发展提供洞察。2025年,FlagEval评测体系的发展将进一步探索动态评测与多任务能力评估体系。
原文和模型
【原文链接】 阅读原文 [ 2344字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆