熬夜看完 GPT 4.5 的发布，没有特别多惊喜。

1,491 0 0

文章摘要

OpenAI最新发布的GPT-4.5模型（代号Orion）成为其迄今为止计算资源和数据规模最大的AI系统，训练过程延续了无监督预训练技术路径。尽管模型参数量级显著提升，但OpenAI在技术白皮书中明确表示该模型不属于前沿架构范畴。付费用户已分阶段获得访问权限，其中ChatGPT Pro用户自周四起可用，API开发者即日启用，而ChatGPT Plus和Team用户预计下周逐步开放。

在技术性能方面，GPT-4.5延续了模型规模扩展带来的提升规律，展现出更丰富的知识储备和情感交互能力。OpenAI官方数据显示，该模型在SimpleQA事实性问答基准测试中，准确率超越自家主力模型GPT-4o及推理模型o1、o3-mini。在创意任务测试中，GPT-4.5成功生成符合要求的SVG独角兽图像，并在情感支持对话场景中表现出更优的社交礼仪。然而，多领域测试揭示其性能提升呈现边际递减趋势，在SWE-Lancer编码测试中不及DeepSeek R1和Claude 3.7 Sonnet，学术性测试如AIME和GPQA也未达顶尖推理模型水平。

成本问题成为该模型最大争议点，API调用费用高达每百万Token 75美元，相比GPT-4o增加30倍。OpenAI坦言运营成本压力巨大，正在评估该模型的长期服务可行性。技术专家Andrej Karpathy通过实际测试指出，模型性能提升呈现“全维度20%优化”特征，这种渐进式改进虽显著但缺乏革命性突破，印证了单纯扩大预训练规模带来的收益递减规律。

行业观察显示，GPT-4.5的发布验证了预训练扩展路径的局限性，OpenAI已着手推动模型架构转型，计划将传统GPT模型与推理模型整合，预计从GPT-5开始实现技术融合。该公司联合创始人Ilya Sutskever此前关于“数据顶峰”的预判，以及业内对预训练时代终结的讨论，在此次发布后获得更多实证支持。尽管面临高成本和性能瓶颈，OpenAI仍将GPT-4.5定位为技术演进的关键过渡，其展现的“非基准优势”如意图理解和创意表达，或为后续模型开发提供新方向。

市场反馈呈现明显分化，部分开发者质疑其性价比，而创意领域从业者则看好其在艺术设计等场景的应用潜力。模型在现实场景中的实际表现与学术基准的偏差，暴露出当前AI评估体系的局限性，这也促使OpenAI强调将加强非标准化场景的能力验证。随着行业竞争焦点转向推理优化与多模态整合，此次发布或将成为AI技术发展路径转型的重要标志事件。