Claude 4 发布：替代人类程序员所需的条件，现在它都有了

1,494 0 0

文章摘要

Anthropic 近日发布了 Claude 4 系列模型，包括旗舰型号 Claude Opus 4 和更侧重效率的 Claude Sonnet 4。这一系列模型在编程能力上实现了重大突破，尤其是在处理复杂代码库和长时间编程任务方面表现突出。Claude Opus 4 在 SWE-bench 等关键基准测试中得分达到72.5%，并能处理数百万行级别的复杂代码库，甚至在测试场景中实现了长达7小时的连续编程任务。这种能力不仅限于代码片段的生成，而是能够从高层次的需求出发，生成结构完整、逻辑严密的应用程序框架，标志着 AI 在编程领域的角色从“辅助”走向“主导”。

Claude 4 系列还引入了“工具辅助的延伸思考”能力，模型在进行深入思考时能够交替使用工具（如网页搜索）以优化推理过程。这一能力在 GPQA、MMMLU 等测试中表现突出，展现了初步的规划和策略调整，是通用问题解决能力的一种体现。此外，Claude 4 继承了 Claude 3 时代令人印象深刻的上下文窗口，为处理庞大项目提供了基础。新增的“记忆能力”允许模型提取并保存关键信息，保持上下文连贯，这对于长任务执行至关重要。

在编程工具方面，Claude Code 正式发布，并深度集成至 VS Code 和 JetBrains IDE。在演示中，Claude Code 仅用一次提示，在 90 分钟内为 Excalidraw 项目完整实现了此前搁置的表格组件功能，包括生成代码、测试用例、UI 集成和 PR 提交，全程无需人工编辑。这种端到端的自动化能力，预示着 AI 不仅是工具，更将成为开发流程中的核心参与者和决策者。

Claude 4 在 Agentic 能力上也实现了显著飞跃，能够更可靠地执行复杂的多步骤任务，并与外部工具和 API 高效协同。Anthropic 为此推出了全新的 API 功能，包括允许 Claude 在安全沙盒环境中执行 Python 代码以进行计算和数据可视化的代码执行工具，以及无需编写客户端代码即可将 Claude 连接至任何远程模型上下文协议（MCP）服务器的 MCP 连接器。这些新特性与 Claude Opus 4 和 Sonnet 4 模型相结合，将助力开发者打造出能够执行复杂数据分析、与外部系统无缝对接、高效管理文件，并且能将对话上下文保持长达60分钟的智能代理。

尽管能力大幅提升，Claude 4 系列模型在成本效益和易用性方面也表现出色。Opus 4 每百万 token 的输入/输出价格分别为 $15/$75，Sonnet 4 为 $3/$15，与前代持平。两款模型均已上线 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 平台，Sonnet 4 甚至向免费用户开放。

Anthropic 的 CEO Dario Amodei 在发布时表示，Claude 4 的强大能力已在多个场景中得到验证，未来优秀的 AI Agent 需要具备“情境智能”、“长任务执行能力”和“真实协作能力”。接下来的目标是出现主动修改优化自身代码逻辑，甚至为自己编写新工具的“代码自进化” Agent。Anthropic 选择“代码生成与理解”这一高度结构化、对逻辑推理和规划能力要求极高的领域作为突破口，安全且负责任地将复杂认知任务（如编程）的执行权从人类手中让渡给 AI，这是实现 Anthropic 眼里那个 AGI 的第一步。

当这些 Agent 能够高效、低成本地创建和管理软件时，Dario 预言：“当「写软件的成本」大幅下降时，经济和商业结构会发生什么？…当软件可以按需、低成本、一次性创建时，整个世界都会不同。”