首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 AI软件、编程、SWE-bench、测试驱动、技术创新
Cognition AI 团队最近发布了首个 AI 软件工程师 Devin,这一事件在 AI 社区引起了广泛关注,并引发了对程序员职业未来前景的讨论。Devin 的能力通过 SWE-bench 进行评估,这是一个由 GitHub 问题和拉取请求组成的软件工程系统的自动化基准测试。与当前 SOTA 模型相比,Devin 在无需人类辅助的情况下解决了 13.86% 的问题,而 SOTA 模型只能完成 1.96% 的问题。
SWE-bench 数据集 包含 2294 个问题和 GitHub 流行开源 Python 存储库中的拉取请求,旨在测试系统编写真实代码的能力。评估过程中,Devin 不接收任何文件列表,而是自行导航文件,这与无辅助的 LLM 更具可比性。Devin 在 25% 的 SWE 基准测试集问题中成功解决了 79 个问题,成功率为 13.86%,远高于之前 SOTA 大模型的 4.80%。
Devin 能够执行多步规划并接收来自环境的反馈,这表明迭代能力有助于其成功。在定性案例中,Devin 展示了根据问题描述和测试代码进行编辑、运行测试并纠正错误的能力。然而,Devin 在处理复杂任务时也遇到了挑战,例如在处理 sympy 代码库时出现了错误。
团队还进行了测试驱动实验,向 Devin 提供了最终的单元测试和问题陈述,成功通过率提高到了 23%。这表明测试驱动开发是软件工程中的一种常见模式,也是 SWE-bench 的自然扩展。
在社区中,已经出现了类似 Devin 的项目,例如推特用户 @antonosika 使用 GPT 和一些开源项目对 Devin 进行复刻,以及 BabelCloud,一个类似于 Devin 的 AI 软件工程师,能够独立完成相对复杂的前后后端任务。Babel Agent 的功能包括自主任务分解、编码、编译、调试、问题研究、测试和迭代开发。
未来,AI 智能体在编程行业将带来哪些变革仍需观察。同时,复旦大学、波形智能、亚马逊云科技 的专家学者和技术大咖们将在 3 月 22 日的上海大模型技术 workshop 上分享大模型能力对齐、长文本、Claude 3 等议题。
原文信息
【原文链接】 阅读原文
【阅读预估】 2958 / 12分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台