再见，Devin！基于GPT-4o，最强「AI工程师」Genie诞生

AIGC动态1年前 (2024)发布 AIera

2,324 0 0

文章摘要

【关键词】 AI编码、GPT-4o模型、SWE-Bench测试、编程语言、软件开发

新智元报道了AI编码领域的最新进展，其中初创公司Cosine开发的AI工程师Genie超越了Devin，成为地表最强的AI软件工程师。Genie不是一个简单的编程助手，而是一个能够自主思考的“同事”，能够与人类工程师并肩作战。Genie的开发得益于与OpenAI的合作，使用了最新的GPT-4o长上下文模型，输出长度可达64k token，是最初的16倍。

Genie的能力在SWE-Bench基准测试中得到了验证，得分为30.08%，轻松超越了Devin的13.8%。Cosine的CEO Alistair Pullen表示，Genie从一开始就被训练成像人类软件工程师一样思考和行动。Genie可以自主完成编码任务，包括bug修复、功能构建、代码重构和代码验证，也可以与用户协作。

Genie的开发过程中，训练数据的质量和多样性至关重要。Genie接受了数十亿token数据的训练，涵盖了15种编程语言，包括Java、JavaScript、Python等。Cosine团队花了近一年时间整理数据集，包括来自真实工程师的大量软件开发活动。这些数据不仅体现了信息脉络和知识发现，还捕捉到了人类工程师逐步决策的过程。

Genie的自主性循环由四个主要过程组成：计划、检索、代码编写和代码运行。这些过程本身并不新颖，但由于Genie被训练成像人类一样执行任务，因此有了更大程度的改进。Pullen表示，使用这个数据集训练模型，让他们不再只是随机生成代码，而是像人类一样处理问题。

Cosine是一家通过Y Combinator成立的初创公司，专注于研究和整理人类执行任务的方式，以教会人工智能模仿、擅长并扩展这些任务。Genie的推出对软件开发团队具有深远影响，尤其是那些希望提高生产率、减少日常工作时间的团队。凭借自主处理复杂编程挑战的能力，Genie有可能改变工程资源的分配方式，让团队专注于更具战略性的计划。

Cosine为Genie的未来发展制定了雄心勃勃的计划，包括完善数据集以增强Genie的能力，扩展其模型组合，将工作扩展到开源社区，以及使用特定代码库微调Genie。随着公司不断完善Genie，将不断向客户发布更新，优化与这个人工同事的互动并收集有价值的反馈。