
文章摘要
OpenAI宣布GPT-4.1模型正式在ChatGPT中可用,面向Plus、Pro和Team用户开放。该模型在编码任务和指令遵循方面表现出色,被视为o3和o4-mini的替代品。GPT-4.1和其迷你版本GPT-4.1 mini已通过OpenAI的最新安全评估,尤其在“not_unsafe”和“not_overrefuse”两项评估中表现优异。尽管在越狱评估中表现不佳,但GPT-4.1在幻觉评估和指令遵循方面依然优秀。
GPT-4.1的推出响应了用户的需求,许多开发者认为其在编码任务中的表现优于GPT-4.5。该模型拥有高达100万Token的上下文窗口,知识截止日期更新至2024年6月,全面超越了GPT-4o及GPT-4o mini。实测中,GPT-4.1在处理庞大代码任务时表现出色,能够快速生成代码并清理无用代码,显示出其在代码生成速度上的显著提升。
然而,用户对GPT-4.1的上下文窗口长度表示失望,ChatGPT中的GPT-4.1最大上下文长度仅为128k token,远低于API中的100万token。这一限制让许多用户感到不满,期待未来的GPT-5能够提供更长的上下文窗口。此外,部分用户发现网页版无法运行某些提示词,但在API Playground中却成功运行,显示出不同平台之间的差异。
尽管存在一些不足,GPT-4.1在推理问题和逆向思考任务中依然表现出色,能够快速完成多步骤的年龄计算和脑筋急转弯问题。OpenAI还发布了GPT-4.1的prompt指南,总结了内部测试中的重要技巧,为用户提供了实测的参考。总体而言,GPT-4.1在编码和指令遵循方面的表现令人印象深刻,但在上下文窗口长度和平台兼容性上仍有改进空间。
原文和模型
【原文链接】 阅读原文 [ 1320字 | 6分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★☆☆☆☆