GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

AIGC动态2年前 (2024)发布 AIera

3,633 0 0

GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

文章摘要

【关键词】 OpenAI、GPT-4o、实力惊艳、内存突破、逆缩放克服

在OpenAI发布GPT-4o后，外界评价从最初失望迅速转变为惊艳。在多项基准测试中，GPT-4o展现出了SOTA（当前最佳）的实力。在LMSys聊天机器人竞技场中，GPT-4o以1310的ELO分数位居榜首，与第二名GPT-4-turbo的1253分相比，取得了显著的领先。此外，在多模态领域的Reka Vibe-Eval基准测试中，GPT-4o不仅以高分数荣登第一，还克服了大模型常见的“逆缩放”问题。

特别值得一提的是，GPT-4o在内存处理上取得了重要突破。在新的“针里寻针”基准测试中，该模型表现卓越，其上下文记忆能力显著超越先前模型，每个token位置的正确率不低于80%，接近完美表现。

这些结果显示，GPT-4o的能力被初步评估严重低估。它的实际表现不仅在各项测试中稳居首位，还展现出发布会未曾提及的卓越功能，为人工智能领域带来了新的突破和可能。

原文和模型

【原文链接】 阅读原文 [ 3320字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆

智谱AI是一家国内的AI大模型...

# AIGC动态 # GPT-GPTs # 大模型 # 机器人 # GPT-4o # OpenAI # 内存突破 # 实力惊艳 # 逆缩放克服

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

15 秒音频即可“复制”原声！但OpenAI 担心新语音模型被滥用而限制发行

AI前线

3,145

我问了 Gemini 1.5 Pro 五个问题，找到了初遇ChatGPT的感觉｜AI 鲜测

硅星人Pro

2,840

首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了

量子位

2,303

Elon Musk起诉OpenAI：Q*模型，AGI的朋友还是人类的敌人？

admin

1,370

怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相

机器之心

3,371

万字梳理：阿里、腾讯等8家中国互联网大厂的50款大模型及应用，能否全面超越GPT-4？ | 钛媒体AGI

钛媒体AGI

3,658

“讯飞星辰”

暂无评论

暂无评论...