OpenAI 推出 GPT-4.1,撞期智谱 Z.ai

OpenAI 推出 GPT-4.1,撞期智谱 Z.ai

 

文章摘要


【关 键 词】 GPT-4.1编码优化指令跟踪长上下文成本降低

OpenAI近日推出了GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,这些模型在多个方面超越了之前的GPT-4o和GPT-4o mini。GPT-4.1在编码、指令跟踪长上下文理解能力上均有显著提升,尤其是在处理多达100万个上下文tokens的能力上,使其在处理大型代码库或长文档时表现出色。在SWE-bench Verified测试中,GPT-4.1的得分达到54.6%,比GPT-4o提高了21.4%,成为领先的编码模型。此外,GPT-4.1在指令遵循能力上的得分为38.3%,比GPT-4o提高了10.5%。

在代码生成方面,GPT-4.1在多种任务上表现优异,包括代理解决编码任务、前端编码、减少无关编辑等。在Aider的多语言差异基准测试中,GPT-4.1的得分是GPT-4o的两倍多,甚至比GPT-4.5还高出8%。GPT-4.1在前端代码方面也有显著提升,能够创建功能更强大、更美观的Web应用,80%的付费人工评分结果显示,GPT-4.1的网站比GPT-4o的网站更受欢迎。

在指令遵循方面,GPT-4.1在困难提示方面的表现尤其优于GPT-4o,能够更好地从过往对话中识别信息,从而实现更自然的对话。在MultiChallenge的基准测试中,GPT-4.1的表现比GPT-4o提高了10.5%。智谱的GLM-Z1-32B-0414在IFEVAL上也表现优异,以84.5%的分数与GPT o1-mini分庭抗礼。

在长上下文理解方面,GPT-4.1系列模型最多可以处理100万个上下文tokens,而之前的GPT-4o型号最多只能处理128,000个。GPT-4.1能够准确地处理长达100万个上下文中的信息,并比GPT-4o更准确地识别相关文本,忽略干扰项。在Graphwalks的基准测试中,GPT-4.1达到了61.7%的准确率,与o1的性能相当,并轻松击败了GPT-4o。

在图像理解方面,GPT-4.1系列模型也表现出色,尤其是GPT-4.1 mini在图像基准测试中经常击败GPT-4o。在Video-MME(长篇无字幕)的测试中,GPT-4.1的表现达到了最佳水平,得分为72.0%,高于GPT-4o的65.3%。

在定价方面,GPT-4.1的成本比GPT-4o低26%,而GPT-4.1 nano是OpenAI迄今为止最便宜、速度最快的模型。智谱Z.ai的定价整体低于GPT4.1,提供了多个版本的模型以满足不同场景需求,其中GLM-Z1-Flash(免费版)支持免费使用,旨在进一步降低模型使用门槛。

原文和模型


【原文链接】 阅读原文 [ 1663字 | 7分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...