OpenAI 推出 GPT-4.1，撞期智谱 Z.ai

2,085 0 0

文章摘要

OpenAI近日推出了GPT-4.1系列模型，包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano，这些模型在多个方面超越了之前的GPT-4o和GPT-4o mini。GPT-4.1在编码、指令跟踪和长上下文理解能力上均有显著提升，尤其是在处理多达100万个上下文tokens的能力上，使其在处理大型代码库或长文档时表现出色。在SWE-bench Verified测试中，GPT-4.1的得分达到54.6%，比GPT-4o提高了21.4%，成为领先的编码模型。此外，GPT-4.1在指令遵循能力上的得分为38.3%，比GPT-4o提高了10.5%。

在代码生成方面，GPT-4.1在多种任务上表现优异，包括代理解决编码任务、前端编码、减少无关编辑等。在Aider的多语言差异基准测试中，GPT-4.1的得分是GPT-4o的两倍多，甚至比GPT-4.5还高出8%。GPT-4.1在前端代码方面也有显著提升，能够创建功能更强大、更美观的Web应用，80%的付费人工评分结果显示，GPT-4.1的网站比GPT-4o的网站更受欢迎。

在指令遵循方面，GPT-4.1在困难提示方面的表现尤其优于GPT-4o，能够更好地从过往对话中识别信息，从而实现更自然的对话。在MultiChallenge的基准测试中，GPT-4.1的表现比GPT-4o提高了10.5%。智谱的GLM-Z1-32B-0414在IFEVAL上也表现优异，以84.5%的分数与GPT o1-mini分庭抗礼。

在长上下文理解方面，GPT-4.1系列模型最多可以处理100万个上下文tokens，而之前的GPT-4o型号最多只能处理128,000个。GPT-4.1能够准确地处理长达100万个上下文中的信息，并比GPT-4o更准确地识别相关文本，忽略干扰项。在Graphwalks的基准测试中，GPT-4.1达到了61.7%的准确率，与o1的性能相当，并轻松击败了GPT-4o。

在图像理解方面，GPT-4.1系列模型也表现出色，尤其是GPT-4.1 mini在图像基准测试中经常击败GPT-4o。在Video-MME（长篇无字幕）的测试中，GPT-4.1的表现达到了最佳水平，得分为72.0%，高于GPT-4o的65.3%。

在定价方面，GPT-4.1的成本比GPT-4o低26%，而GPT-4.1 nano是OpenAI迄今为止最便宜、速度最快的模型。智谱Z.ai的定价整体低于GPT4.1，提供了多个版本的模型以满足不同场景需求，其中GLM-Z1-Flash（免费版）支持免费使用，旨在进一步降低模型使用门槛。