GPT-4o mini，你好！GPT-3.5 彻底再见！｜AI 鲜测

AIGC动态2年前 (2024)发布 Si-Planet

3,933 0 0

文章摘要

OpenAI 最新推出的 GPT-4o mini 模型以其卓越的性价比和强大的多模态能力，重新定义了 AI 成本效益的标准。在 MMLU 中以 82% 的得分领先市场，成本仅为每百万输入 Token 0.15 美元，输出 Token 0.6 美元。GPT-4o mini 在 MMMU 中得分 59.4%，显示了其处理文本、图像、甚至未来视频和音频的能力。此外，128k 的上下文窗口优化了长篇文档的处理，为后续详细的功能测评提供了理想的技术基础。

然而，GPT-4o mini 在数学推理方面的表现并不理想。在连续用中英文提问的三个“比大小”问题中，GPT-4o mini 均给出了错误答案，显示出其数学推理能力有待加强。

在中文理解能力方面，GPT-4o mini 相较于 GPT-3.5 有了明显提升。在回答“当手机和钱包同时掉水里，会选择救谁？”的问题时，GPT-4o mini 不仅给出了中规中矩的回答，还表现出了人性化的一面。在回答“手机每天都在我身上，我会不会其实是手机支架？”的问题时，GPT-4o mini 的回答更加有趣，展现了其对中文语境的理解能力。

在 128k 上下文测试中，GPT-4o mini 在小说续写场景中展现了出色的上下文处理和文本生成能力，能够保持故事的连贯性和语言风格一致。在研究文献综述场景中，GPT-4o mini 能有效分析和整合过去五年中“深度学习在医疗影像中的应用”文献，提供清晰而深入的综述。

在编程能力方面，GPT-4o mini 同样表现出色。在编写一个简单的 Python 程序实现计算器功能的任务中，GPT-4o mini 生成的代码简洁明了、基本功能齐全，同时在除法运算中处理了除数为零的情况，防止程序崩溃。此外，在开发一个基于 Web 的预约系统的原型任务中，GPT-4o mini 完整地展示了从前端到后端的实现过程，结构清晰，代码示例详尽。

尽管 GPT-4o mini 在长文本处理、中文理解、编程能力等方面相较于 GPT-3.5 有了显著提升，但其在基础数学问题上仍然会出错，在一些复杂的中文语境下的表现还有提升空间。此外，模型在处理实时更新的信息和理解网络内容方面有所限制，影响了一些应用场景的表现。

总的来说，GPT-4o mini 以其高性价比和相对强大的功能，为使用者和开发者降低了门槛，提供了更多可能。我们期待 GPT-4o mini 在未来更新多模态能力后，能带来更多惊喜。