全球140+大模型全方位评测结果出炉，智源评测体系发布

AIGC动态1年前 (2024)发布 almosthuman2014

1,169 0 0

文章摘要

智源研究院在2024年5月17日举办了大模型评测发布会，推出了科学、权威、公正、开放的智源评测体系。该评测对国内外140余个大模型进行了全面能力评估，涵盖语言模型的七大能力，包括简单理解、知识运用、推理能力等，以及多模态模型的理解和生成能力。

在中文语境下，国内领先的语言模型综合表现接近平行国际一流水平，但存在能力发展不均衡的问题。尤其在多模态理解图文问答任务上，国内模型表现突出。在文生图能力方面，国内模型与国际水平差距较小，而在文生视频能力上，Sora和PixVerse模型在公布的视频质量和长度上展现出明显优势。

评测中发现，语言模型在安全与价值观方面存在差异，尤其是海外模型与国内模型在此维度上的表现不同，因此在总体排名中未将这一单项分数计入。字节跳动豆包Skylark2和OpenAI GPT-4在主观评测中位居前两位，显示出国产大模型在理解中国用户方面的优势。客观评测中，OpenAI GPT-4和百川智能Baichuan3领先。

在多模态理解模型的客观评测中，阿里巴巴通义Qwen-vl-max和上海人工智能实验室InternVL-Chat-V1.5在图文问答方面超过了OpenAI GPT-4。OpenAI DALL-E3在多模态生成模型的文生图评测中位列第一，智谱华章CogView3和Meta-Imagine紧随其后。

智源研究院还首次与权威教育机构合作，对大模型进行了K12学科测试。结果显示，模型在综合学科能力上与海淀学生平均水平有差距，尤其在理科题目上存在文强理弱的现象，对图表的理解能力也有待提升。

针对视频生成模型的主观评价体系构建，中国传媒大学智能媒体计算实验室负责人史萍教授指出，视频的主观评价复杂度高，需要系统化评价体系。智源研究院与中国传媒大学共同建立的这一体系，从图文一致性、真实性、视频质量、美学质量四大方面进行评分。

智源评测体系依托科技部与工信部项目，联合多家高校和机构研发评测方法与工具。智源研究院还牵头成立了IEEE大模型评测标准小组P3419，参与大模型标准建设。本次评测采用了严格的数据集和评分标准，包括20余个数据集、超过8万道考题，以及4000余道主观题，确保了评测的科学性、权威性和公正性。

智源研究院院长王仲远表示，未来智源将继续与生态合作伙伴共建完善评测体系，推动大模型技术应用的有序发展。