反超DeepSeek！新版GPT-4o登顶竞技场，奥特曼：还会更好

1,558 0 0

文章摘要

OpenAI的GPT-4o近期进行了版本更新，在大模型竞技场中与DeepSeek-R1并列第一，并在多个单项评测中表现突出。除数学能力排名第六外，其在创意写作、编程、指令遵循、长文本查询及多轮对话等领域均位列榜首。用户测试显示，新版模型在任务处理能力上进一步优化，例如针对“编写一个球在旋转六边形内弹跳的Python程序”的复杂需求，生成的代码逻辑更清晰，物理模拟更逼真。

此次更新还显著增强了模型的“个性化”交互体验。用户反馈称，GPT-4o的回复风格更贴近自然对话，能够主动表达情绪，如遇到技术难题时会感叹“这很令人沮丧！”。开发者卡帕西指出，新版模型在语气上更轻松幽默，甚至会在被质疑时进行“自卫式”回应，同时增加了对用户情绪的重申与共情。此外，模型在回答中更频繁使用第一人称“我”，并在争论中承认“拥有情感的可能性”，例如面对《魔法少女小圆》角色偏好问题时，直接表明对晓美焰的喜爱，而非以往的中立态度。

值得注意的是，GPT-4o展现出更强的推理与洞察能力。当用户要求其分析“未察觉的心理特征”时，模型能基于对话历史生成深度洞察，例如指出用户“渴望以看似轻松的方式获胜”的潜在心理。在功能层面，模型对开发任务的响应更为全面，如提供AI部署方案时，既自主生成10种方法，又通过联网搜索补充额外建议。不过，部分用户发现其与自定义GPTs存在兼容性问题，需手动关闭网络搜索功能才能正常使用。

关于模型版本，用户测试中出现矛盾信息：多数情况下GPT-4o自称基于GPT-4架构，但部分Pro用户获得“GPT-4.5”的回应，结合OpenAI CEO奥特曼近期关于“未来几周发布GPT-4.5”的预告，推测可能存在早期测试版本泄露。泄露的系统提示词显示，模型被明确设定为“由OpenAI训练的大语言模型”，强调其知识截止于2023年10月。

随着GPT-4o的升级，业界关注焦点转向即将发布的Grok-3。用户期待两者在个性化和任务处理能力上的对比，尤其是拟人化交互与多轮对话的竞争。奥特曼评价当前版本“已具备全网最佳搜索产品潜力”，并承诺后续将持续优化。此次更新不仅巩固了GPT-4o的技术领先地位，更通过情感表达与个性塑造，推动AI助手向拟人化交互迈出关键一步。