普林斯顿首个「开源」AI程序员登场!爆改GPT-4,93秒修bug

AI-Agent9个月前发布 AIera
1,414 0 0
普林斯顿首个「开源」AI程序员登场!爆改GPT-4,93秒修bug

 

文章摘要


【关 键 词】 AI程序员普林斯顿SWE-agentGPT-4开源

普林斯顿大学的研究团队最近推出了一个名为SWE-agent的全新开源智能体-计算机接口(ACI),这是一个基于GPT-4AI程序员,能够在GitHub仓库中自动修复bug。SWE-agent在SWE-bench测试集上的表现令人瞩目,成功解决了12.29%的问题,平均耗时仅为93秒,准确率与之前发布的AI程序员Devin相当。这一成就不仅展示了AI在软件工程领域的潜力,也标志着AI程序员技术的快速进步。

SWE-agent的工作原理是通过与专门设计的终端交互,执行打开、滚动、搜索文件等操作,并能够自动进行语法检查。例如,在处理sympy项目中的一个矩阵操作bug时,SWE-agent能够快速定位问题所在,并成功修改代码以解决问题。整个过程的效率和准确性都给人留下了深刻印象。

SWE-agent的开源特性意味着它可以被广泛应用和改进。在GitHub上,它迅速获得了大量的关注和支持。此外,SWE-agent的设计理念强调了智能体-计算机接口(ACI)的重要性,这对于提高AI在软件开发中的应用效果至关重要。研究人员还发现,为AI智能体设计简洁的指令和反馈格式,以及提供特制的工具,如代码检查器、文件查看器和全目录字符串搜索命令,可以显著提高工作效率。

SWE-agent的工作流程分为两个阶段:推理和评估。在推理阶段,SWE-agent处理GitHub上报告的问题,并生成旨在修复该问题的拉取请求(Pull Request)。在评估阶段,对生成的拉取请求进行确认,以确保问题已经得到解决。

研究团队中的核心成员包括John YangCarlos E. Jimenez,他们的研究兴趣涵盖了语言基础、交互、LLM的基准测试、软件工程和代码生成等多个领域。他们的工作不仅推动了AI在软件工程领域的应用,也为未来的技术进步提供了新的思路。

AI在软件工程领域的应用正在逐渐成熟,不仅仅是作为辅助工具,AI开始承担起工程师的角色,完成复杂的软件项目。Devin、OpenDevin和Devika等AI程序员的出现,展示了AI在编程、错误处理、应用部署乃至训练新AI模型方面的能力。这些进步引发了关于AI在软件工程中角色和能力的深层次思考,同时也让我们对未来AI独立编写安全代码的可能性充满期待。

尽管AI程序员技术取得了显著进展,但目前它们还无法完全代替人类工程师。AI的进步为软件工程领域带来了变革,但同时也提出了新的挑战和问题,需要我们在技术发展的同时,对AI的角色和能力进行持续的思考和探索。

原文和模型


【原文链接】 阅读原文 [ 2530字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...