最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人

AIGC动态2年前 (2024)发布 QbitAI

3,502 0 0

文章摘要

【关键词】 AI软件、性能卓越、GitHub Issue、自我改进、大模型支持

Genie，一款被誉为“地表最强”的AI软件工程师，以其卓越的性能在SWE-Bench评测中以30.07%的解决问题率夺得榜首，领先第二名57%。Genie能够像人类工程师一样解决实际软件问题，支持通过提示词、GitHub Issue、Linear Ticket或API等多种方式启动工作。以GitHub Issue为例，Genie能够自动解析问题、迭代思考所需文件、进行问题分析，并自动编写和运行代码，整个过程仅需84秒。

Genie背后的团队Cosine仅有5人，他们通过收集包含真实人类程序员开发活动的数据集，使用成果分析、静态分析、自我对弈、逐步验证等方法，以及基于大量标记数据训练的AI模型，使Genie能够模仿人类工程师的认知过程、逻辑和工作流。Genie的推理过程包括规划、检索、代码编写和代码运行四个主要步骤，突破了其他AI工程师的限制，能够处理多样化、高度情境化、前所未见的问题。

Genie的训练方法还包括自我改进机制，通过使用初代版本的Genie生成包含错误的合成数据，训练下一版模型，不断提高解决方案的准确性。此外，OpenAI提供的大模型支持也是Genie能力提升的关键，最新版本的Genie经过了数十亿token的数据训练。

Cosine团队虽然人数不多，但成员背景丰富，包括来自独角兽企业的成员、拥有管理全球团队经验的成员，以及从8岁开始编程的成员。团队的华人联合创始人Yang Li曾入选福布斯30 under 30。Genie的构想始于2022年，但直到大模型技术逐步成熟，Genie才得以实现。

目前，Genie已经开放了Waitlist申请，感兴趣的用户可以关注并申请体验这款强大的AI软件工程师。