文章摘要
【关 键 词】 软件改进、AI辅助、代码提交、故障定位、模型训练
通义灵码团队在其最新论文《An Open Development-Process-Centric Language Model for Automated Software Improvement》中提出了面向程序改进的软件工程大模型Lingma SWE-GPT,该模型在SWE-bench Verified基准上自动解决了超过30%的真实GitHub issue,接近闭源模型的表现。Lingma SWE-GPT系列包括7B和72B两个版本,通过学习和模拟真实的代码提交活动,实现了对软件改进流程的全面理解。
Lingma SWE-GPT的方法包括三个主要阶段:issue和pull request数据收集、开发过程数据合成和模型训练。该模型基于Qwen2.5系列基础模型,以问题描述和相关项目代码库为输入,采用多阶段工作流程,模拟专家程序员的认知过程,学习中间问题解决过程和补丁生成,然后利用合成数据进行迭代模型训练。
在SWE-bench-Verified基准上的实验评估显示,Lingma SWE-GPT 72B成功解决了30.20%的GitHub问题,相较Llama 3.1 405B的性能提升了22.76%,接近封闭源模型(GPT-4解决了31.80%问题)的表现。Lingma SWE-GPT 7B解决了18.20%的问题,超过了Llama 3.1 70B的17.20%解决率,展示了小型模型在AI软件工程师中的应用潜力。
Lingma SWE-GPT在代码块、函数和文件级别上展现了出色的故障定位能力,其表现接近闭源模型GPT-4o。未来,作者计划进一步扩展Lingma SWE-GPT的功能和应用范围,增加对更多编程语言的支持,并探索支持更多的端到端软件工程任务。随着通义灵码团队持续优化和扩展其能力,Lingma SWE-GPT将在支持开发者、提升生产力和改善软件质量方面发挥越来越重要的作用,推动AI辅助软件工程领域的发展。
原文和模型
【原文链接】 阅读原文 [ 5171字 | 21分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆