谷歌数学版Gemini破解奥赛难题,堪比人类数学家!

AIGC动态6个月前发布 AIera
921 0 0
谷歌数学版Gemini破解奥赛难题,堪比人类数学家!

 

文章摘要


【关 键 词】 人工智能数学能力多模态理解技术突破基准测试

在谷歌I/O大会上, Gemini 1.5 Pro的发布引起了广泛关注。该模型的数学专业版本在多项基准测试中展现出了卓越性能,特别是数学能力,其成绩甚至与人类专家水平相当。在关键基准测试中,1.5 Pro不仅超越了之前的“超大杯”1.0 Ultra版本,而且在大多数文本和视觉测试中,性能优于GPT-4 Turbo

在数学评测方面,Gemini 1.5 Pro“数学定制版”使用了多个由数学竞赛衍生的基准测试,结果显示其明显优于Claude 3 Opus和GPT-4 Turbo,尤其在MATH测试中取得了91.1%的突破性成绩,而三年前的记录仅为6.9%。此外,在AIME测试集中,1.5 Pro能解决的问题数量是其他模型的4倍。

除了数学能力,1.5 Pro在文本评估中的推理、编码、多模态多项基准测试中也取得了显著优势。在MMLU通用语言理解基准测试中,1.5 Pro在正常设置中得分为85.9%,在多数投票设置中得分为91.7%,超过了GPT-4 Turbo

在多模态评估中,技术报告涵盖了多模态推理、图表与文档、自然图像以及视频理解等多个基准测试,展示了1.5 Pro在图像理解任务和视频理解任务中的强大性能

整体来看,Gemini 1.5 Pro的核心性能全面提升,无论是数学能力还是多模态理解,都表现出了当前最先进的技术水平。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 4096字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...