全球140+大模型全方位评测结果出炉,智源评测体系发布
文章摘要
【关 键 词】 智源评测、大模型、能力评估、国内表现、国际对比
智源研究院在2024年5月17日举办了大模型评测发布会,推出了科学、权威、公正、开放的智源评测体系。该评测对国内外140余个大模型进行了全面能力评估,涵盖语言模型的七大能力,包括简单理解、知识运用、推理能力等,以及多模态模型的理解和生成能力。
在中文语境下,国内领先的语言模型综合表现接近平行国际一流水平,但存在能力发展不均衡的问题。尤其在多模态理解图文问答任务上,国内模型表现突出。在文生图能力方面,国内模型与国际水平差距较小,而在文生视频能力上,Sora和PixVerse模型在公布的视频质量和长度上展现出明显优势。
评测中发现,语言模型在安全与价值观方面存在差异,尤其是海外模型与国内模型在此维度上的表现不同,因此在总体排名中未将这一单项分数计入。字节跳动豆包Skylark2和OpenAI GPT-4在主观评测中位居前两位,显示出国产大模型在理解中国用户方面的优势。客观评测中,OpenAI GPT-4和百川智能Baichuan3领先。
在多模态理解模型的客观评测中,阿里巴巴通义Qwen-vl-max和上海人工智能实验室InternVL-Chat-V1.5在图文问答方面超过了OpenAI GPT-4。OpenAI DALL-E3在多模态生成模型的文生图评测中位列第一,智谱华章CogView3和Meta-Imagine紧随其后。
智源研究院还首次与权威教育机构合作,对大模型进行了K12学科测试。结果显示,模型在综合学科能力上与海淀学生平均水平有差距,尤其在理科题目上存在文强理弱的现象,对图表的理解能力也有待提升。
针对视频生成模型的主观评价体系构建,中国传媒大学智能媒体计算实验室负责人史萍教授指出,视频的主观评价复杂度高,需要系统化评价体系。智源研究院与中国传媒大学共同建立的这一体系,从图文一致性、真实性、视频质量、美学质量四大方面进行评分。
智源评测体系依托科技部与工信部项目,联合多家高校和机构研发评测方法与工具。智源研究院还牵头成立了IEEE大模型评测标准小组P3419,参与大模型标准建设。本次评测采用了严格的数据集和评分标准,包括20余个数据集、超过8万道考题,以及4000余道主观题,确保了评测的科学性、权威性和公正性。
智源研究院院长王仲远表示,未来智源将继续与生态合作伙伴共建完善评测体系,推动大模型技术应用的有序发展。
原文和模型
【原文链接】 阅读原文 [ 2320字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★