普林斯顿首个「开源」AI程序员登场！爆改GPT-4，93秒修bug

AI-Agent1年前 (2024)发布 AIera

3,489 0 0

文章摘要

普林斯顿大学的研究团队最近推出了一个名为SWE-agent的全新开源智能体-计算机接口（ACI），这是一个基于GPT-4的AI程序员，能够在GitHub仓库中自动修复bug。SWE-agent在SWE-bench测试集上的表现令人瞩目，成功解决了12.29%的问题，平均耗时仅为93秒，准确率与之前发布的AI程序员Devin相当。这一成就不仅展示了AI在软件工程领域的潜力，也标志着AI程序员技术的快速进步。

SWE-agent的工作原理是通过与专门设计的终端交互，执行打开、滚动、搜索文件等操作，并能够自动进行语法检查。例如，在处理sympy项目中的一个矩阵操作bug时，SWE-agent能够快速定位问题所在，并成功修改代码以解决问题。整个过程的效率和准确性都给人留下了深刻印象。

SWE-agent的开源特性意味着它可以被广泛应用和改进。在GitHub上，它迅速获得了大量的关注和支持。此外，SWE-agent的设计理念强调了智能体-计算机接口（ACI）的重要性，这对于提高AI在软件开发中的应用效果至关重要。研究人员还发现，为AI智能体设计简洁的指令和反馈格式，以及提供特制的工具，如代码检查器、文件查看器和全目录字符串搜索命令，可以显著提高工作效率。

SWE-agent的工作流程分为两个阶段：推理和评估。在推理阶段，SWE-agent处理GitHub上报告的问题，并生成旨在修复该问题的拉取请求（Pull Request）。在评估阶段，对生成的拉取请求进行确认，以确保问题已经得到解决。

研究团队中的核心成员包括John Yang和Carlos E. Jimenez，他们的研究兴趣涵盖了语言基础、交互、LLM的基准测试、软件工程和代码生成等多个领域。他们的工作不仅推动了AI在软件工程领域的应用，也为未来的技术进步提供了新的思路。

AI在软件工程领域的应用正在逐渐成熟，不仅仅是作为辅助工具，AI开始承担起工程师的角色，完成复杂的软件项目。Devin、OpenDevin和Devika等AI程序员的出现，展示了AI在编程、错误处理、应用部署乃至训练新AI模型方面的能力。这些进步引发了关于AI在软件工程中角色和能力的深层次思考，同时也让我们对未来AI独立编写安全代码的可能性充满期待。

尽管AI程序员技术取得了显著进展，但目前它们还无法完全代替人类工程师。AI的进步为软件工程领域带来了变革，但同时也提出了新的挑战和问题，需要我们在技术发展的同时，对AI的角色和能力进行持续的思考和探索。