文章摘要
【关 键 词】 GPT-4o、多模态、性价比高、中文理解、编程能力
OpenAI 最新推出的 GPT-4o mini 模型以其卓越的性价比和强大的多模态能力,重新定义了 AI 成本效益的标准。在 MMLU 中以 82% 的得分领先市场,成本仅为每百万输入 Token 0.15 美元,输出 Token 0.6 美元。GPT-4o mini 在 MMMU 中得分 59.4%,显示了其处理文本、图像、甚至未来视频和音频的能力。此外,128k 的上下文窗口优化了长篇文档的处理,为后续详细的功能测评提供了理想的技术基础。
然而,GPT-4o mini 在数学推理方面的表现并不理想。在连续用中英文提问的三个“比大小”问题中,GPT-4o mini 均给出了错误答案,显示出其数学推理能力有待加强。
在中文理解能力方面,GPT-4o mini 相较于 GPT-3.5 有了明显提升。在回答“当手机和钱包同时掉水里,会选择救谁?”的问题时,GPT-4o mini 不仅给出了中规中矩的回答,还表现出了人性化的一面。在回答“手机每天都在我身上,我会不会其实是手机支架?”的问题时,GPT-4o mini 的回答更加有趣,展现了其对中文语境的理解能力。
在 128k 上下文测试中,GPT-4o mini 在小说续写场景中展现了出色的上下文处理和文本生成能力,能够保持故事的连贯性和语言风格一致。在研究文献综述场景中,GPT-4o mini 能有效分析和整合过去五年中“深度学习在医疗影像中的应用”文献,提供清晰而深入的综述。
在编程能力方面,GPT-4o mini 同样表现出色。在编写一个简单的 Python 程序实现计算器功能的任务中,GPT-4o mini 生成的代码简洁明了、基本功能齐全,同时在除法运算中处理了除数为零的情况,防止程序崩溃。此外,在开发一个基于 Web 的预约系统的原型任务中,GPT-4o mini 完整地展示了从前端到后端的实现过程,结构清晰,代码示例详尽。
尽管 GPT-4o mini 在长文本处理、中文理解、编程能力等方面相较于 GPT-3.5 有了显著提升,但其在基础数学问题上仍然会出错,在一些复杂的中文语境下的表现还有提升空间。此外,模型在处理实时更新的信息和理解网络内容方面有所限制,影响了一些应用场景的表现。
总的来说,GPT-4o mini 以其高性价比和相对强大的功能,为使用者和开发者降低了门槛,提供了更多可能。我们期待 GPT-4o mini 在未来更新多模态能力后,能带来更多惊喜。
原文和模型
【原文链接】 阅读原文 [ 1932字 | 8分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆