GPT-4o mini一手测评：懂得不多，但答得极快

AIGC动态1年前 (2024)发布 almosthuman2014

2,947 0 0

文章摘要

【关键词】 GPT-4o mini、性能测试、价格优势、快速响应、智能模型

OpenAI 近日推出了一款名为 GPT-4o mini 的新模型，旨在全面取代先前的 GPT-3.5 Turbo。在性能上，GPT-4o mini 在 MMLU 测试中的得分为 82%，在 LMSYS 排行榜的聊天功能上得分甚至超过了 GPT-4。价格方面，GPT-4o mini 的商用价格为每百万输入 token 15 美分，每百万输出 token 60 美分，相较于 GPT-3.5 Turbo 降低了超过 60%。

GPT-4o mini 从周四开始对 ChatGPT 的免费版、Plus 版和 Team 用户开放，而企业用户则从下周起可以访问。在 WildBench 测试中，GPT-4o mini 排名第九，优于谷歌的 Gemini-flash 和 Anthropic 的 Claude 3 Haiku。

尽管 GPT-4o mini 在一些测试中表现不佳，例如在比较数字大小和解读图片方面，但在其他方面，如回答关于戒指位置的问题时，GPT-4o mini 显示出了与 GPT-4 类似的智能水平。在解决数学问题方面，尽管 GPT-4o mini 的逻辑分析存在错误，但其对问题的解读相对清晰。在文字总结能力上，GPT-4o mini 与 GPT-4 表现相当，都能准确抓取重点信息。

GPT-4o mini 的一大卖点是其响应速度，几乎无需等待，输出速度极快。日本网友使用 GPT-4o mini 搭建的 AI 聊天机器人也证明了其快速响应的能力。此外，网友对比 GPT-4o 和 GPT-4o mini 的输出速度发现，GPT-4o mini 明显更快。

GPT-4o mini 项目由一群年轻的学者负责，其中包括项目负责人 Mianna Chen，以及其他多位华人学者。Chen 曾在谷歌 DeepMind 担任产品主管，拥有普林斯顿大学学士学位和宾夕法尼亚大学沃顿商学院 MBA 学位。其他项目领导者包括 Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas 和 Felipe Petroski Such，他们在各自的领域具有丰富的研究经验。

OpenAI 创始成员 Karpathy 认为，随着模型大小竞争的加剧，未来小模型将变得越来越智能和可靠。他预测，我们将会看到非常小的模型，它们能够很好地思考并具有很高的可靠性。当前模型之所以如此之大，是因为我们在训练过程中表现得很浪费，要求 LLM 记住互联网上的整个内容。但随着模型的发展，它们将先变大，然后才能变小，因为我们需要它们帮助重构和塑造训练数据，使其成为理想的合成格式。这是一个逐步改进的过程，一个模型帮助生成下一个模型的训练数据，直到我们得到完美的训练集。最终，即使是较小的模型，如 GPT-2，经过训练后也会成为一个非常强大和智能的模型。