GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

2,081 0 0

文章摘要

OpenAI最新发布的GPT-4.5模型引发业界广泛争议。多个独立评测显示，该模型在智能水平、推理能力和代码生成等核心指标上均未显著超越前代产品，ARC-AGC评估表明其性能与GPT-4o基本持平。纽约大学教授马库斯将其比喻为「空心汉堡」，直指其高成本与低效能的矛盾。AI初创公司CEO指出，在Aider Polyglot基准测试中，GPT-4.5的运行成本是DeepSeek-V3的500倍，但表现反而更差。

市场格局正在发生剧烈变化。DeepSeek连续推出开源模型并实施降价策略，R1模型价格直降75%；Anthropic和xAI等竞争对手也推出高性价比产品。行业分析师认为OpenAI的先发优势已消失，既未建立技术护城河，又面临开源生态的冲击。Scale AI的SEAL排行榜显示，GPT-4.5在15个评测项目中未获任何第一，编程能力评测更被建议「除非人傻钱多不要使用」。

技术路线分歧日益凸显。马库斯等学者强调纯粹通过扩大模型规模的Scaling Law已触及天花板，GPT-4.5的预训练计算量虽增加10倍却未带来质变。OpenAI内部研发方向呈现分裂态势：首席研究官Mark Chen坚称Scaling仍有潜力，并披露团队正并行推进预训练和推理能力两条技术路线。数据显示，用户在70%的生产力场景中偏好GPT-4.5的即时响应特性，但其每分钟高达278倍于竞品的定价引发商业可行性质疑。

企业运营危机逐渐显现。OpenAI面临资金链紧张、核心人才流失和商业模式缺失三重压力。微软投资支持力度减弱，孙正义等关键投资人态度摇摆，公司每月运营亏损达数亿美元。技术团队流失问题尤为突出，知情人士透露「许多能实现技术突破的成员已离职」。马库斯预测行业将经历重大洗牌，五年内消耗五千亿美元后仍难出现可持续的商业模式，仅有芯片制造商和咨询公司可能持续获益。

面对质疑，OpenAI官方仍保持技术自信。Mark Chen披露GPT-4.5开发过程中未遇特殊技术障碍，其性能提升符合从GPT-3.5到GPT-4的演进规律。团队正在探索知识基础与推理能力的协同发展路径，声称更大规模的语言模型在创意写作等场景具有独特优势。但市场数据显示，用户对响应延迟的容忍度与定价敏感度形成矛盾，GPT-4.5每分钟0.07美元的成本使其在多数应用场景缺乏竞争力。