文章摘要
【关 键 词】 智源评测、大模型、能力评测、学科测试、产业落地
智源研究院于2024年5月17日推出了一项科学、权威、公正、开放的大模型评测体系,并发布了国内外140余个语言及多模态大模型的全方位能力评测结果。该评测从主观、客观两个维度对语言模型和多模态模型进行了考察。
在中文语境下,评测结果显示国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的问题。国产模型在图文问答任务上表现出色,与开闭源模型平分秋色。在文生图能力上,国产模型与国际一流水平差距较小,而在文生视频能力上,Sora和PixVerse等模型表现突出。
语言模型主观评测中,字节跳动豆包Skylark2和OpenAI GPT-4在中文语境下位居前两位,显示出国产大模型对中国用户需求的深入理解。客观评测中,OpenAI GPT-4和百川智能Baichuan3领先。在多模态理解模型评测中,阿里巴巴通义Qwen-vl-max和上海人工智能实验室InternVL-Chat-V1.5表现优异。
此外,智源研究院联合海淀区教师进修学校,首次对大模型进行了K12学科测试,发现模型在综合学科能力上与人类学生平均水平有差距,尤其在人文学科的文化内涵理解、图表能力及理科题目解答方面。
针对视频生成模型的主观评价,中国传媒大学智能媒体计算实验室负责人史萍教授提出,需构建系统化的主观评价体系,以评价生成视频的真实性、图文语义一致性等。
智源评测体系依托科技部与工信部的项目支持,联合多家高校和机构研发评测方法与工具。智源研究院还牵头成立了IEEE大模型评测标准小组P3419,参与国家标准建设,并采用了客观评测与主观评测相结合的方法。本次评测使用了20余个数据集、超8万道考题,严格校准打分标准,降低主观偏差。
智源研究院致力于推动大模型技术应用的有序发展,院长王仲远表示,未来将继续共建完善评测体系,优化模型性能,推动其在多元复杂场景下的产业落地。
原文和模型
【原文链接】 阅读原文 [ 2316字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 glm-4
【摘要评分】 ★★★★★