首个AI软件工程师Devin完整技术报告出炉，还有人用GPT做出了「复刻版」

AI-Agent2年前 (2024)发布 almosthuman2014

3,143 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

Cognition AI 团队最近发布了首个 AI 软件工程师 Devin，这一事件在 AI 社区引起了广泛关注，并引发了对程序员职业未来前景的讨论。Devin 的能力通过 SWE-bench 进行评估，这是一个由 GitHub 问题和拉取请求组成的软件工程系统的自动化基准测试。与当前 SOTA 模型相比，Devin 在无需人类辅助的情况下解决了 13.86% 的问题，而 SOTA 模型只能完成 1.96% 的问题。

SWE-bench 数据集包含 2294 个问题和 GitHub 流行开源 Python 存储库中的拉取请求，旨在测试系统编写真实代码的能力。评估过程中，Devin 不接收任何文件列表，而是自行导航文件，这与无辅助的 LLM 更具可比性。Devin 在 25% 的 SWE 基准测试集问题中成功解决了 79 个问题，成功率为 13.86%，远高于之前 SOTA 大模型的 4.80%。

Devin 能够执行多步规划并接收来自环境的反馈，这表明迭代能力有助于其成功。在定性案例中，Devin 展示了根据问题描述和测试代码进行编辑、运行测试并纠正错误的能力。然而，Devin 在处理复杂任务时也遇到了挑战，例如在处理 sympy 代码库时出现了错误。

团队还进行了测试驱动实验，向 Devin 提供了最终的单元测试和问题陈述，成功通过率提高到了 23%。这表明测试驱动开发是软件工程中的一种常见模式，也是 SWE-bench 的自然扩展。

在社区中，已经出现了类似 Devin 的项目，例如推特用户 @antonosika 使用 GPT 和一些开源项目对 Devin 进行复刻，以及 BabelCloud，一个类似于 Devin 的 AI 软件工程师，能够独立完成相对复杂的前后后端任务。Babel Agent 的功能包括自主任务分解、编码、编译、调试、问题研究、测试和迭代开发。

未来，AI 智能体在编程行业将带来哪些变革仍需观察。同时，复旦大学、波形智能、亚马逊云科技的专家学者和技术大咖们将在 3 月 22 日的上海大模型技术 workshop 上分享大模型能力对齐、长文本、Claude 3 等议题。