
文章摘要
OpenAI在凌晨1点发布了最新模型GPT-4.1,同时推出的还有GPT 4.1-Mini和GPT 4.1-Nano两款模型。这些模型在多模态处理、代码能力、指令遵循和成本方面实现了显著提升。特别是GPT-4.1支持100万token的上下文,这对于金融分析、小说写作、教育等领域具有重大意义。由于GPT-4.1的发布,OpenAI宣布将淘汰刚发布不久的GPT-4.5,显示出其强大的能力。目前,微软已经在Azure OpenAI上线了该模型,供无法通过API身份验证的用户使用。
GPT-4.1的最大亮点之一是支持100万tokens的上下文,这是OpenAI首次发布长窗口模型。与前代模型相比,GPT-4.1系列能够处理多达100万tokens的上下文,是GPT-4o的8倍。OpenAI在Long Context Evals上对长文本进行了测试,结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,甚至在长达100万tokens的上下文中,模型依然能够准确地定位目标文本。在Multi-Round Coreference测试中,GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o,并且在长达100万tokens的上下文中依然能够保持较高的性能。
在编码能力测试中,SWEBench评估将模型置于Python代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1的准确率达到55%,而GPT-4o仅为33%。在多语言编码能力测试方面,Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。在指令遵循能力测试中,OpenAI构建内部评估体系,模拟API开发者使用场景,测试模型对复杂指令的遵循能力。在困难子集评估中,GPT-4.1远超GPT-4o。
在多模态处理测试的视频MME基准测试中,GPT 4.1对30-60分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。价格方面,GPT-4.1系列在性能提升的同时,价格更具竞争力。GPT-4.1相比GPT-4o价格降低26%,而GPT-4.1 Nano作为最小、最快且最便宜的模型,每百万token的成本仅为12美分。
在实际应用中,汤森路透的AI助手CoCounsel在测试GPT-4.1时,发现该模型在多文档审查方面表现出色,尤其是在处理涉及多个长文档的复杂法律工作流程时。与GPT-4o相比,GPT-4.1在内部长上下文基准测试中的多文档审查准确性提高了17%。法律文件通常包含多个长文档,这些文档之间可能存在复杂的相互关系,例如冲突条款或补充上下文。GPT-4.1在这些方面表现出了极高的可靠性,能够准确识别文档之间的细微关系,这对于法律分析和决策至关重要。
Carlyle使用GPT-4.1来从多个长文档中准确提取颗粒化的金融数据,这些文档包括PDF文件、Excel表格和其他复杂格式。Carlyle的内部评估显示,GPT-4.1在从大型文档中检索数据方面的表现比其他可用模型高出50%。GPT-4.1在处理非常大的文档时表现出色,尤其是在密集数据的检索方面。该模型成功克服了其他模型的关键限制,包括检索问题、中间位置丢失信息的错误以及跨文档的多跳推理。这些能力使得GPT-4.1能够更高效地从复杂的金融文档中提取关键信息,为Carlyle的分析师提供了更准确、更全面的数据支持。
Windsurf在对GPT-4.1进行测试时,发现该模型在编码任务中的表现比前代GPT-4o有了显著提升:GPT-4.1在Windsurf的内部编码基准测试中得分比GPT-4o高出60%。Windsurf的用户反馈显示,GPT-4.1在工具调用方面比GPT-4o更高效,效率提升了30%。GPT-4.1在编码过程中重复进行不必要的编辑或过度细化的步骤的可能性比GPT-4o降低了约50%。
原文和模型
【原文链接】 阅读原文 [ 1500字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆