GPT-4o mini一手测评:懂得不多,但答得极快

GPT-4o mini一手测评:懂得不多,但答得极快

 

文章摘要


【关 键 词】 GPT-4o mini性能测试价格优势快速响应智能模型

OpenAI 近日推出了一款名为 GPT-4o mini 的新模型,旨在全面取代先前的 GPT-3.5 Turbo。在性能上,GPT-4o mini 在 MMLU 测试中的得分为 82%,在 LMSYS 排行榜的聊天功能上得分甚至超过了 GPT-4。价格方面,GPT-4o mini 的商用价格为每百万输入 token 15 美分,每百万输出 token 60 美分,相较于 GPT-3.5 Turbo 降低了超过 60%。

GPT-4o mini 从周四开始对 ChatGPT 的免费版、Plus 版和 Team 用户开放,而企业用户则从下周起可以访问。在 WildBench 测试中,GPT-4o mini 排名第九,优于谷歌的 Gemini-flash 和 Anthropic 的 Claude 3 Haiku。

尽管 GPT-4o mini 在一些测试中表现不佳,例如在比较数字大小和解读图片方面,但在其他方面,如回答关于戒指位置的问题时,GPT-4o mini 显示出了与 GPT-4 类似的智能水平。在解决数学问题方面,尽管 GPT-4o mini 的逻辑分析存在错误,但其对问题的解读相对清晰。在文字总结能力上,GPT-4o mini 与 GPT-4 表现相当,都能准确抓取重点信息。

GPT-4o mini 的一大卖点是其响应速度,几乎无需等待,输出速度极快。日本网友使用 GPT-4o mini 搭建的 AI 聊天机器人也证明了其快速响应的能力。此外,网友对比 GPT-4o 和 GPT-4o mini 的输出速度发现,GPT-4o mini 明显更快。

GPT-4o mini 项目由一群年轻的学者负责,其中包括项目负责人 Mianna Chen,以及其他多位华人学者。Chen 曾在谷歌 DeepMind 担任产品主管,拥有普林斯顿大学学士学位和宾夕法尼亚大学沃顿商学院 MBA 学位。其他项目领导者包括 Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas 和 Felipe Petroski Such,他们在各自的领域具有丰富的研究经验。

OpenAI 创始成员 Karpathy 认为,随着模型大小竞争的加剧,未来小模型将变得越来越智能和可靠。他预测,我们将会看到非常小的模型,它们能够很好地思考并具有很高的可靠性。当前模型之所以如此之大,是因为我们在训练过程中表现得很浪费,要求 LLM 记住互联网上的整个内容。但随着模型的发展,它们将先变大,然后才能变小,因为我们需要它们帮助重构和塑造训练数据,使其成为理想的合成格式。这是一个逐步改进的过程,一个模型帮助生成下一个模型的训练数据,直到我们得到完美的训练集。最终,即使是较小的模型,如 GPT-2,经过训练后也会成为一个非常强大和智能的模型。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2291字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...