文章摘要
【关 键 词】 AI编码、GPT-4o模型、SWE-Bench测试、编程语言、软件开发
新智元报道了AI编码领域的最新进展,其中初创公司Cosine开发的AI工程师Genie超越了Devin,成为地表最强的AI软件工程师。Genie不是一个简单的编程助手,而是一个能够自主思考的“同事”,能够与人类工程师并肩作战。Genie的开发得益于与OpenAI的合作,使用了最新的GPT-4o长上下文模型,输出长度可达64k token,是最初的16倍。
Genie的能力在SWE-Bench基准测试中得到了验证,得分为30.08%,轻松超越了Devin的13.8%。Cosine的CEO Alistair Pullen表示,Genie从一开始就被训练成像人类软件工程师一样思考和行动。Genie可以自主完成编码任务,包括bug修复、功能构建、代码重构和代码验证,也可以与用户协作。
Genie的开发过程中,训练数据的质量和多样性至关重要。Genie接受了数十亿token数据的训练,涵盖了15种编程语言,包括Java、JavaScript、Python等。Cosine团队花了近一年时间整理数据集,包括来自真实工程师的大量软件开发活动。这些数据不仅体现了信息脉络和知识发现,还捕捉到了人类工程师逐步决策的过程。
Genie的自主性循环由四个主要过程组成:计划、检索、代码编写和代码运行。这些过程本身并不新颖,但由于Genie被训练成像人类一样执行任务,因此有了更大程度的改进。Pullen表示,使用这个数据集训练模型,让他们不再只是随机生成代码,而是像人类一样处理问题。
Cosine是一家通过Y Combinator成立的初创公司,专注于研究和整理人类执行任务的方式,以教会人工智能模仿、擅长并扩展这些任务。Genie的推出对软件开发团队具有深远影响,尤其是那些希望提高生产率、减少日常工作时间的团队。凭借自主处理复杂编程挑战的能力,Genie有可能改变工程资源的分配方式,让团队专注于更具战略性的计划。
Cosine为Genie的未来发展制定了雄心勃勃的计划,包括完善数据集以增强Genie的能力,扩展其模型组合,将工作扩展到开源社区,以及使用特定代码库微调Genie。随着公司不断完善Genie,将不断向客户发布更新,优化与这个人工同事的互动并收集有价值的反馈。
原文和模型
【原文链接】 阅读原文 [ 3165字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★