再见,Devin!基于GPT-4o,最强「AI工程师」Genie诞生

AIGC动态4个月前发布 AIera
824 0 0
再见,Devin!基于GPT-4o,最强「AI工程师」Genie诞生

 

文章摘要


【关 键 词】 AI编码GPT-4o模型SWE-Bench测试编程语言软件开发

新智元报道了AI编码领域的最新进展,其中初创公司Cosine开发的AI工程师Genie超越了Devin,成为地表最强的AI软件工程师。Genie不是一个简单的编程助手,而是一个能够自主思考的“同事”,能够与人类工程师并肩作战。Genie的开发得益于与OpenAI的合作,使用了最新的GPT-4o长上下文模型,输出长度可达64k token,是最初的16倍。

Genie的能力在SWE-Bench基准测试中得到了验证,得分为30.08%,轻松超越了Devin的13.8%。Cosine的CEO Alistair Pullen表示,Genie从一开始就被训练成像人类软件工程师一样思考和行动。Genie可以自主完成编码任务,包括bug修复、功能构建、代码重构和代码验证,也可以与用户协作。

Genie的开发过程中,训练数据的质量和多样性至关重要。Genie接受了数十亿token数据的训练,涵盖了15种编程语言,包括Java、JavaScript、Python等。Cosine团队花了近一年时间整理数据集,包括来自真实工程师的大量软件开发活动。这些数据不仅体现了信息脉络和知识发现,还捕捉到了人类工程师逐步决策的过程。

Genie的自主性循环由四个主要过程组成:计划、检索、代码编写和代码运行。这些过程本身并不新颖,但由于Genie被训练成像人类一样执行任务,因此有了更大程度的改进。Pullen表示,使用这个数据集训练模型,让他们不再只是随机生成代码,而是像人类一样处理问题。

Cosine是一家通过Y Combinator成立的初创公司,专注于研究和整理人类执行任务的方式,以教会人工智能模仿、擅长并扩展这些任务。Genie的推出对软件开发团队具有深远影响,尤其是那些希望提高生产率、减少日常工作时间的团队。凭借自主处理复杂编程挑战的能力,Genie有可能改变工程资源的分配方式,让团队专注于更具战略性的计划。

Cosine为Genie的未来发展制定了雄心勃勃的计划,包括完善数据集以增强Genie的能力,扩展其模型组合,将工作扩展到开源社区,以及使用特定代码库微调Genie。随着公司不断完善Genie,将不断向客户发布更新,优化与这个人工同事的互动并收集有价值的反馈。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3165字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...