GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

AIGC动态6个月前发布 AIera
1,112 0 0
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

 

文章摘要


【关 键 词】 OpenAIGPT-4o实力惊艳内存突破逆缩放克服

OpenAI发布GPT-4o后,外界评价从最初失望迅速转变为惊艳。在多项基准测试中,GPT-4o展现出了SOTA(当前最佳)的实力。在LMSys聊天机器人竞技场中,GPT-4o以1310的ELO分数位居榜首,与第二名GPT-4-turbo的1253分相比,取得了显著的领先。此外,在多模态领域的Reka Vibe-Eval基准测试中,GPT-4o不仅以高分数荣登第一,还克服了大模型常见的“逆缩放”问题

特别值得一提的是,GPT-4o在内存处理上取得了重要突破。在新的“针里寻针”基准测试中,该模型表现卓越,其上下文记忆能力显著超越先前模型,每个token位置的正确率不低于80%,接近完美表现。

这些结果显示,GPT-4o的能力被初步评估严重低估。它的实际表现不仅在各项测试中稳居首位,还展现出发布会未曾提及的卓越功能,为人工智能领域带来了新的突破和可能。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3320字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...