华人又来炸场！一个命令工具让GPT-4干掉Devin和RAG！Jim Fan：提示工程2.0没必要了！

AI-Agent1年前 (2024)发布 admin

1,921 0 0

华人又来炸场！一个命令工具让GPT-4干掉Devin和RAG！Jim Fan：提示工程2.0没必要了！

文章摘要

【关键词】 普林斯顿、开源项目、SWE-agent、Github热门、编程Agent

普林斯顿大学的计算机科学与自然语言处理硕士生John Yang近日在Github上开源了一款名为SWE-agent的系统，该系统在Github上迅速获得了1.3k的星标，显示出其受欢迎程度。SWE-agent是一个能够自主解决Github存储库问题的新型系统，其性能与Devin相似，但平均耗时仅为93秒，并且最重要的是，它是开源的。该系统通过与专用终端交互，具备打开、滚动和搜索文件，使用自动语法检查编辑特定行，编写并执行测试等功能，这些都是其良好性能的关键。

SWE-agent的出现证明了大型语言模型（LM）需要精心设计的代理计算机界面（ACI），类似于人类喜欢的良好UI设计，才能发挥最大效能。SWE-agent团队设计了一种ACI，使得大型模型如GPT-4能够转变为软件工程代理，有效修复真实GitHub存储库中的错误和问题。在SWE-bench测试集上，SWE-agent解决了12.29%的问题，实现了最先进的性能。

SWE-agent团队在设计ACI的过程中总结了一些有用的经验，例如添加了一个在发出编辑命令时运行的linter，构建了一个专门的文件查看器，提供了专门构建的全目录字符串搜索命令，并在命令输出为空时返回特定消息。这些设计都是为了提高Agent的效率和准确性。

SWE-agent的安装过程也很简单，只需Docker+Miniconda和一些配置即可。它的使用分为两个步骤：推理和评估。推理步骤是向SWE agent输入GitHub问题并返回尝试修复它的拉取请求；评估步骤则是评估拉取请求是否真正解决了问题。

英伟达的高级研究经理JimFan对SWE-agent的发布表示赞赏，他认为这表明即使是基于GPT-4的命令行工具，也能通过更好的手动设计达到与Devin相似的精确度。他还预测，随着GPT-5的到来，指令遵循、工具使用和长上下文的处理可能会进一步改善，而所谓的“提示工程2.0”可能不再那么重要。

补充知识方面，SWE Bench旨在提供一组可以使用回购单元测试进行验证的不同代码库问题。SWE-bench Lite是SWE Bench的一个规范子集，包括300个实例，旨在评估功能性错误修复，以解决在短期内取得进展时可能遇到的挑战。