文章摘要
【关 键 词】 普林斯顿、开源项目、SWE-agent、Github热门、编程Agent
普林斯顿大学的计算机科学与自然语言处理硕士生John Yang近日在Github上开源了一款名为SWE-agent的系统,该系统在Github上迅速获得了1.3k的星标,显示出其受欢迎程度。SWE-agent是一个能够自主解决Github存储库问题的新型系统,其性能与Devin相似,但平均耗时仅为93秒,并且最重要的是,它是开源的。该系统通过与专用终端交互,具备打开、滚动和搜索文件,使用自动语法检查编辑特定行,编写并执行测试等功能,这些都是其良好性能的关键。
SWE-agent的出现证明了大型语言模型(LM)需要精心设计的代理计算机界面(ACI),类似于人类喜欢的良好UI设计,才能发挥最大效能。SWE-agent团队设计了一种ACI,使得大型模型如GPT-4能够转变为软件工程代理,有效修复真实GitHub存储库中的错误和问题。在SWE-bench测试集上,SWE-agent解决了12.29%的问题,实现了最先进的性能。
SWE-agent团队在设计ACI的过程中总结了一些有用的经验,例如添加了一个在发出编辑命令时运行的linter,构建了一个专门的文件查看器,提供了专门构建的全目录字符串搜索命令,并在命令输出为空时返回特定消息。这些设计都是为了提高Agent的效率和准确性。
SWE-agent的安装过程也很简单,只需Docker+Miniconda和一些配置即可。它的使用分为两个步骤:推理和评估。推理步骤是向SWE agent输入GitHub问题并返回尝试修复它的拉取请求;评估步骤则是评估拉取请求是否真正解决了问题。
英伟达的高级研究经理JimFan对SWE-agent的发布表示赞赏,他认为这表明即使是基于GPT-4的命令行工具,也能通过更好的手动设计达到与Devin相似的精确度。他还预测,随着GPT-5的到来,指令遵循、工具使用和长上下文的处理可能会进一步改善,而所谓的“提示工程2.0”可能不再那么重要。
补充知识方面,SWE Bench旨在提供一组可以使用回购单元测试进行验证的不同代码库问题。SWE-bench Lite是SWE Bench的一个规范子集,包括300个实例,旨在评估功能性错误修复,以解决在短期内取得进展时可能遇到的挑战。
原文和模型
【原文链接】 阅读原文 [ 1585字 | 7分钟 ]
【原文作者】 51CTO技术栈
【摘要模型】 gpt-4
【摘要评分】 ★★★☆☆