32B 模型横扫 SWE 任务，这款代码智能体模型有点东西

1,048 0 0

文章摘要

2025年被预测为AI软件工程元年，以AI驱动的自动化软件工程正在重构开发范式。昆仑万维近期开源的代码智能体Skywork-SWE-32B标志着开源生态对抗闭源巨头的重要进展，该模型在SWE-bench-Verified上将修复准确率提升至47.0%，超越了32B参数规模以下的开源模型，接近Claude v3.7的闭源性能。这一突破使得企业能够通过消费级显卡部署AI工程师，将AI从“工具”升级为“协作者”，推动软件工程向智能体驱动的范式转移。

软件工程任务（SWE）对智能体模型提出了远超普通代码生成的要求。处理陌生项目时，人类工程师的首次修复正确率不足70%，而AI工程师需要在短时间内理解复杂系统、模糊的Bug报告，并提交符合团队规范的修复方案。与代码生成相比，SWE需要理解整个代码库的生态系统，考虑历史决策、依赖关系和性能约束，这对模型的能力提出了更高要求。现有SWE数据集存在三大缺陷：缺乏可执行环境与验证机制、高质量训练数据稀缺、数据规模法则适用性不明确，这些问题限制了模型的工程实践能力。

昆仑万维通过系统性数据构建流程解决了数据集瓶颈。团队分三个阶段（数据采集与预筛选、基于执行的验证机制、智能体轨迹生成）构建了超1万条高质量任务实例和8千条多轮交互轨迹。这一数据集覆盖了主流开源项目，为大模型提供了丰富且贴近实际的训练样本。基于此，Skywork-SWE-32B在OpenHands框架下实现了38.0%的pass@1准确率，通过测试时扩展（TTS）进一步提升至47.0%，超越了同框架模型甚至671B参数的DeepSeek-V3-0324。

实验证实了Scaling Law在SWE任务中的适用性。随着训练数据规模的扩展，模型性能持续提升，打破了此前关于SWE任务数据规模法则不明确的假设。Skywork-SWE-32B的表现显著优于GPT-4.1-mini、Claude 3.5 HaiKu和OpenAI-o1-preview，接近Claude v3.5的性能。这一开源模型为企业提供了私有化部署的选择，保障了数据安全并降低了API依赖成本。

AI正在推动软件开发范式从“工具辅助”向“智能体主导”转变。Sam Altman预测2025年底软件工程将发生根本性变化，而Skywork-SWE-32B的出现加速了这一进程。智能体开始承担需求分析和架构设计等核心任务，开发流程从线性向动态自适应演进。昆仑万维计划进一步拓展多编程语言支持，并探索融合运行时测试反馈的强化学习机制，为构建更强大的AI软件开发模型奠定基础。