32B 模型横扫 SWE 任务,这款代码智能体模型有点东西

文章摘要
【关 键 词】 AI软件工程、开源智能体、代码修复、模型性能、开发范式
2025年被预测为AI软件工程元年,以AI驱动的自动化软件工程正在重构开发范式。昆仑万维近期开源的代码智能体Skywork-SWE-32B标志着开源生态对抗闭源巨头的重要进展,该模型在SWE-bench-Verified上将修复准确率提升至47.0%,超越了32B参数规模以下的开源模型,接近Claude v3.7的闭源性能。这一突破使得企业能够通过消费级显卡部署AI工程师,将AI从“工具”升级为“协作者”,推动软件工程向智能体驱动的范式转移。
软件工程任务(SWE)对智能体模型提出了远超普通代码生成的要求。处理陌生项目时,人类工程师的首次修复正确率不足70%,而AI工程师需要在短时间内理解复杂系统、模糊的Bug报告,并提交符合团队规范的修复方案。与代码生成相比,SWE需要理解整个代码库的生态系统,考虑历史决策、依赖关系和性能约束,这对模型的能力提出了更高要求。现有SWE数据集存在三大缺陷:缺乏可执行环境与验证机制、高质量训练数据稀缺、数据规模法则适用性不明确,这些问题限制了模型的工程实践能力。
昆仑万维通过系统性数据构建流程解决了数据集瓶颈。团队分三个阶段(数据采集与预筛选、基于执行的验证机制、智能体轨迹生成)构建了超1万条高质量任务实例和8千条多轮交互轨迹。这一数据集覆盖了主流开源项目,为大模型提供了丰富且贴近实际的训练样本。基于此,Skywork-SWE-32B在OpenHands框架下实现了38.0%的pass@1准确率,通过测试时扩展(TTS)进一步提升至47.0%,超越了同框架模型甚至671B参数的DeepSeek-V3-0324。
实验证实了Scaling Law在SWE任务中的适用性。随着训练数据规模的扩展,模型性能持续提升,打破了此前关于SWE任务数据规模法则不明确的假设。Skywork-SWE-32B的表现显著优于GPT-4.1-mini、Claude 3.5 HaiKu和OpenAI-o1-preview,接近Claude v3.5的性能。这一开源模型为企业提供了私有化部署的选择,保障了数据安全并降低了API依赖成本。
AI正在推动软件开发范式从“工具辅助”向“智能体主导”转变。Sam Altman预测2025年底软件工程将发生根本性变化,而Skywork-SWE-32B的出现加速了这一进程。智能体开始承担需求分析和架构设计等核心任务,开发流程从线性向动态自适应演进。昆仑万维计划进一步拓展多编程语言支持,并探索融合运行时测试反馈的强化学习机制,为构建更强大的AI软件开发模型奠定基础。
原文和模型
【原文链接】 阅读原文 [ 3190字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★