文章摘要
【关 键 词】 智源评测、大模型、能力评测、学科测试、标准建设
智源研究院于2024年5月17日推出了一套科学、权威、公正、开放的大模型评测体系,并对全球140余个大模型进行了全方位能力评测。评测从主观和客观两个维度进行,考察语言模型的七大能力,包括简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观,以及多模态模型的多模态理解和生成能力。
在中文语境下,国内头部语言模型的综合表现接近国际一流水平,但能力发展存在不均衡。字节跳动豆包Skylark2和OpenAI GPT-4在语言模型主观评测中表现突出,位列前两名。客观评测中,OpenAI GPT-4和百川智能Baichuan3位居前列。
在多模态生成领域,OpenAI DALL-E 3在文生图评测中位列第一,智谱华章CogView3和Meta-Imagine紧随其后。文生视频评测中,OpenAI Sora、Runway、爱诗科技PixVerse等位列前五。然而,评测发现文生图模型的客观评测指标与主观感受差异较大,排名主要以主观评测为准。
此外,智源研究院联合海淀区教师进修学校,首次对大模型进行了K12学科测试,发现模型在综合学科能力上与人类学生平均水平有差距,尤其在文理科目上存在明显差异。
为了更准确地评价文生视频模型,智源研究院与中国传媒大学共建了主观评价体系,从图文一致性、真实性、视频质量、美学质量四大方面进行评分。
智源评测体系依托科技部与工信部的项目支持,联合多家高校和机构研发评测方法与工具。智源研究院还牵头成立了IEEE大模型评测标准小组P3419,参与大模型标准建设。评测采用统一规则与多重校验打分相结合的方法,使用20余个数据集、超8万道考题,确保了评测的科学性、权威性、公正性和开放性。
智源研究院院长王仲远表示,未来智源将继续共建完善评测体系,促进模型性能优化和产业落地,推动大模型技术应用的有序发展。
原文和模型
【原文链接】 阅读原文 [ 2493字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★★